线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

大数据技术8篇

时间:2023-03-22 17:36:51

大数据技术

大数据技术篇1

2.1 大数据数据库的特点

传统的关系数据库,从其创立至现在,长期占据数据库的绝对统治地位。但是,数据挖掘、商业智能和可视化技术的发展,特别是它们处理非结构化数据的能力,动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生,这其中必须优先提及的便是NoSQL(意为Not Only SQL)及NewSQL(意为New SQL)两大数据库阵营。

现在随着大数据时代的到来,由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围,其“数据类型”可以是文本、图片、影像、网页,也可以是整个文件;NoSQL数据库是非关系式的、数据间的关系更加复杂、多样,类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展,NoSQL取得了成功,采用NoSQL技术的产品也不断增长,目前NoSQL网站上()已经收集了150余个相关产品,人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。

最初NoSQL有意排斥关系数据库的ACID规则和SQL特性(后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性)。NoSQL坚持分布式领域的CAP理论,CAP的含义为:

Consistency,一致性。数据一致更新,所有节点访问同一份最新的数据副本;

Availability,可用性。对数据更新具备高可用性;

Partition tolerance,分区容错性。能容忍网络分区。

CAP理论主张任何基于网络的数据共享系统,都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者,或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论(Basically Available, Soft state, Eventually consistent;基本可用、软状态、最终一致性),它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。

NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点,同时也意识到NoSQL不支持SQL所带来的不便,它采用了一种近似折中的方案,既支持SQL并保证一定程度的数据一致性,同时也提供NoSQL数据库的非关系数据处理的扩展功能,因而从产生之初便受到业界的喜爱,相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。

2.2 NoSQL及其发展趋势

在NoSQL潮流中,最重要的莫过于Apache基金会的Hadoop。它是一个领导者,是一个典型的分布式文件系统,是一个开源系统。用户可以在不了解分布式底层细节的情况下,借助Hadoop开发分布式程序,它取得了成功,成为分布式数据处理界的巨兽(Hadoop的Logo就是只大象)。 现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中,Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。

第二位领导者,MongoDB,是一个成功的文档处理型数据库系统,它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大,特别适合高性能的Web数据处理。

Cassandra是这个领域中的一个另类产品,它兼有键值数据库和列值数据库两者的长处,它的查询功能很优秀。虽然运行Cassandra集群难度较高,但它升级后的分析能力使得很多人感到惊讶。

Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动,因为更多的人喜欢和习惯JavaScript服务器端语言。但是,Lua是一个整洁的语言,它并为Redis开启了潘多拉盒子。

CouchBase在可扩展性和其他潜在因素,使其看起来是一个很好的选择,尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反?只要数据库做得好受众就会欢迎,现在看来,它确实做的很好。

还需要提及的是Riak,在功能性和监控方面它也有了巨大的提升。在稳定性方面,它继续得到大家的赞美:“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。

在图中,涉及了多个维度:关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中,对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。

大数据技术篇2

关键词:大数据;数据库技术;数据标签

1引言

数据库技术主要是通过相关的技术措施对信息数据进行有效的存储管理、优化数据结构、设计数据管理模式等。另外,数据库技术还可以对库里的数据进行科学合理的整合分析,挖掘数据的真实性和实用性,找出不同数据之间的联系,这也是当前社会发展的实际需求,对于现代信息技术的发展起着十分重要的作用和意义。

2数据库技术简介

随着大数据技术的不断改革完善,作为近年来兴起的新型技术,它在一定程度上是随着云计算的出现而发展的。立足于云计算的相关技术,对人们生活和工作中产生的大量数据进行综合处理,结合计算机技术、网络通信技术、数据库技术等,有效推动社会经济的稳步发展。数据库技术在推广和普及过程中,主要是以计算机信息技术为载体,充分结合传统数据信息处理技术和互联网技术,对社会中的生产要素和业务要素进行及时有效的分析和更新,调整社会中现有的业务结构和发展模式,从而有效实现经济转型。

3大数据时代背景下数据库技术的应用现状

3.1构建与面向对象实际需求相结合的数据库

在进行数据库的开发和利用过程中,应当充分立足于用户的实际需求,有效结合面向对象方法,根据数据库的分析情况,充分了解用户的需求,为用户提供更为全面和细致的服务。从一定意义上来讲,不仅可以体现出个性化服务,还能保障数据传输过程中的安全性和实效性[1]。根据相关调查研究可以看出,当前我国数据库技术仍处于不断发展和创新时期,面向对象搭建出高效的数据库,并且根据用户需求不断进行调整优化。

3.2构建与多媒体技术相结合的数据库

一方面,对大多数群体来说,多媒体数据库中所存储的资料数据更多,界面的设置也更加多元化,能够在第一时间吸引人们的注意力,从而更好地满足人们的个性化需求,实现技术的多元化发展。另一方面,数据库的安全问题一直是人们最为关注的问题,安全隐患一直是制约数据库技术发展的重要因素,通过有效融合数据库技术与多媒体,可以在一定程度上提高数据库的安全性能和稳定性能。在实际工作过程中,为了充分推动数据库的发展和多媒体技术的有效融合,相关工作人员应当解决以下几个问题。第一,多媒体数据库在实际使用过程中必将涉及到用户的个性化需求,在进行设计时应当有针对性的融入相关数字数据,实现多媒体数据的有效管理和存储,已成为了技术节点搭建的重要模块。第二,数据库技术与多媒体技术要实现有效结合必将涉及到系统的兼容性,这不仅是数据之间的融合,还是数据交叉使用的重要内容,如何充分进行二者的融合和兼容,是全面深入实现多媒体数据库面临的主要问题[2]。

4大数据时代背景下的数据库技术特点

4.1统一性

受传统数据库系统搭建模式内容的影响,不同类型的数据库在使用中仍存在不兼容的情况。因此,无法充分利用数据库中的信息资源,造成了资源的闲置或浪费,无法充分满足用户的实际需求。大数据时代背景下的数据库技术可以有效解决这一问题,针对不同类型的数据库进行有效统一的数据库建设,不断完善数据信息资源的检索功能,从而提高用户的满意程度和工作效率,简化操作流程[3]。

4.2共享性

数据库技术的有效实现和价值体现,在一定程度上取决于数据信息资源的共享性。人们可以通过方便快捷的方式方法获取资源,不断提高信息的使用效率。在实践应用过程中,相关工作人员可以根据虚拟数据的实际情况对各个数据库中的子节点进行科学合理的搭建,逐渐实现功能的多元化发展和信息资源的共享。随着我国信息技术的不断发展,数据库技术的逐渐拓展和信息资源的共享,在一定程度上实现了信息资源的方便快捷,不断满足用户的多元化需求,从而充分体现出数据库的价值和作用。

5大数据时代背景下数据库技术的应用对策和手段

5.1数据标签

数据标签是大数据时代背景下使用数据库技术的基础,能够充分实现数据的查询和有效定位。在进行数据库的有效搭建和完善过程中,相关技术人员应当有针对性地凸显出数据库中相关资源的特殊性,充分立足于社会发展的实际需求,科学合理的设置相应字符长度,不断提高数据标签的科学性和合理性。

5.2节点建设

在使用数据库时,节点建设应当是建设的核心和关键,各个要素之间的有效搭建能够充分满足用户的实际需求,体现出个性化发展目标。根据实际情况可以看出,当前我国在节点建设中仍存在一定的问题,比如过于注重其标准性,采用固定的某种模式进行搭建,没有充分考虑到实际需求,使得节点建设脱离实际,无法充分发挥数据库技术的作用和功能。基于此,相关技术人员应当在原有数据库技术基础上进行优化完善,结合原有的地址内容和关键词检索信息,对整个数据信息资源进行重新整合,从而提高数据库的有效性。

5.3虚拟大数据系统

在数据库中灵活有效搭建出虚拟大数据技术可以更好地实现数据的海量管理,对数据库综合性能的提升和创新改革服务内容等都有着极其重要的作用和意义。虚拟大数据系统为数据群的前台,其功能的实现直接影响了数据库和节点信息资源的收集交汇,合理分配任务。虚拟大数据系统应当是整个虚拟数据中的关键所在,只有确保其正常高效运行,才能为用户提供更为更全面的服务[4]。

5.4信息获取

我国现有的数据库技术更为注重数据信息资源获取渠道和机制的创新完善,通过交互式管理模式,不断进行信息的重组和创新。一方面,对于信息的获取应当充分考虑到用户的实际需求,搭建出由上而下的健全数据信息获取途径,使得用户获得更为全面系统的数据信息,确保信息的真实性和可靠性。另一方面,在获取元数据时,技术人员应当充分运用虚拟大数据技术,对数据进行有效获取。

大数据技术篇3

【关键词】大数据 数据挖掘 数据提取

21世纪是信息化的时代,也是数据时代,随着世界范围内数据挖掘技术的不断深入研究,大数据时代的到来给数据挖掘技术带来了机遇的同时,也带来了挑战。面对浩瀚的数据库海洋,如何在茫茫海洋中寻找针对特点人群有用的数据是数据挖掘技术在大数据时代背景下的意义。通过数据挖掘技术的充分应用分类技术,挖掘大数据时代中的数据删选,同时通过大数据时代背景下数据挖掘技术的应用技术探讨了数据挖掘技术在大数据时代背景下的应用。

1 大数据时代背景下数据挖掘的意义

在信息时代的背景下,数字化技术和信息化技术在各行各业的应用,随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展,结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用,全世界范围内数据呈爆炸式增长,据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算,2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的,信息化技术彻底改变了传统的社会信息传输方式,带来全新的信息传播途径。对于社会来说,信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用,社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸,高效率的社会背景下,是企业高效运转,才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起,共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分,同时也是我国社会迈向信息化进程的重要前提。

企业信息化要求企业将大量的信息资源进行整合和电子化处理,从而提高信息的交互与传输效率,并希望藉此提高企业的生产经营管理方式和管理效率,从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术,给社会的信息化建设带来了巨大的改变,降低了社会在信息化建设中的投入,随着近年来云计算技术的不断成熟,云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问,当前的信息时代的发展已经达到了大数据时代的阶段,大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说,每天数以万计的银行和ATM终端都发生庞大的交易和数据交换,这些庞大的数据交换信息构成了庞大的数据,如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。

2 大数据时代背景下数据挖掘技术的分类应用

数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强,随着社会信息化程度的不断提升,数据挖掘技术也逐渐发展成为一门独立的学科,数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要,通过分类技术对数据进行分类挖掘,是当前大数据时代背景下大数据技术应用最为广泛的手段之一。

通过数据库类型分类技术是数据挖掘技术在大数据时代的应用之一。数据库的自动存储系统在数据存储过程中按照数据的类型、场景进行基础分类,数据挖掘技术在数据存储的基础分类的基础上进行数据库类型细分,通过数据模型的导入和数据类型包括关系型、对象型、时间型、空间型的分类进行数据挖掘的分类。其次通过数据知识类型分类技术是数据挖掘的重要分类方法之一。知识类型分类包括知识相关性、知识预测型和样本偏离分析法等知识类型分类方法。数据的抽象性和数据的粒度是数据知识类型分类的层次之一。通过挖掘数据分类中的抽象层和价值层找出数据的模式和规则性。数据的规则性通过不同的方法挖掘,通过数据概念的描述和数据预测等方法实现大数据精细化分类。

3 大数据时代背景下数据挖掘的应用技术

大数据时代背景下数据挖掘技术的应用技术主要包括神经网络算法、数据遗传、数据决策树、数据粗糙集等算法。数据神经算法通过对庞大的数据库进行分类,对符合优先条件的有用数据进行分类,能够在规模庞大的数据中迅速定位和精选有用数据。例如网络构架的基础传输通道光缆发生故障时,通过神经网络算法能够及时诊断网络中的损坏数据点,能够迅速定位故障点,并排除。神经网络算法针对网状结构的数据库利用效率较高。遗传数据挖掘技术是仿生学和遗传学中发展而来的数据算法。遗传数据挖掘技术针对全局数据进行优化计算,能够较好的兼容性和隐含并行性,因此在数据挖掘中与其它算法进行联合应用范围较广,应用较为普遍。决策树算法是在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。粗糙集算法是大数据时代背景下数据挖掘技术应用的典范,粗糙集算法通过数据划分将模糊知识和精确知识进行合并分析,并最终获得有效数据,应用范围十分广泛,应用效果较好。

4 结论

总之,在大数据时代背景下,数据挖掘技术是人们面对浩瀚的数据库所必备的技能,也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。

参考文献

[1]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.

[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012:16-17.

[3]陈明奇,姜禾,张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012,(08):32-35.

[4]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

作者简介

杜钢虎(1975-),男,新疆维吾尔族自治区石河子市人。研究生学历。现供职于武警新疆总队司令部乌鲁木齐情报站。主要研究方向为数据挖掘技术与移动定位技术在社会安全方面的应用。

大数据技术篇4

关键词:大数据;数据库技术;信息

在大数据发展的时代背景下,人们对于数据信息的收集和存储有了更为先进的飞跃,在数据信息总量呈几何倍数增长的态势下,数据信息来源并收集于各种传感移动设备和无线网络设备,这些数据信息的庞大已经远远超出人力所能组织、处理和分析的能力,与个别独立的小型数据而言,大数据之下的数据库技术具有更为综合的性能,可以将各种信息和数据关系,进行整合分析,构建多个独立数据库的巨型集合,并生成对海量数据进行处理应用的数据计算模型。

一、大数据的界定及特性

大数据发展背景下,它不再仅仅代表数据规模,更具有了一种划时代的意义和价值,它意味着对传统计算信息技术的挑战,是对大数据进行分析、处理的新技术和方法,是指在数据庞大到无法承受的状态下,用计算机软件工具进行信息数据捕捉、组织和分析处理的数据集合。大数据决策可以推动数据信息管理准则的重新定位,并在大数据分析和预测性分析不断发展的条件下,大数据会对各领域的管理决策产生颠覆性的影响。同时,大数据还可以推动新技术和新应用的开发,在大数据新技术不断被开发的基础上,数据信息的能量将会以不可预知的速度增大。

大数据的特性主要指以下几个方面的内容:(1)Volume。即大数据的庞大体量,一些个人计算机的容量已经到了TB量级,大型企业的容量更是接近了EB量级。(2)Variety。即大数据的类型。大数据总体而言有结构化数据和非结构化数据两大类,在新时代下,各种非结构化数据呈现迅速增长的态势,如:网络日志、视频、地理位置信息等。(3)Value。即大数据的价值密度。通常而言,数据总量与数据的价值密度呈反比关系。(4)Velocity。即大数据的处理速度。在未来迅猛发展的信息时代,对数据的信息处理速度将决定企业的效率和质量。

二、大数据发展背景下的数据库技术

1 键值存储技术

在传统的结构化数据之中,通常采用二维表数据模型,对结构化数据进行存储和分配,以实现不同二维表之间的链接和操作,然而,这种传统的数据库处理技术难以满足人类对数据库高并发读写的需求,也无法满足海量数据存储和访问的需求,使数据库具有较低的扩展性和可用性。

在大数据发展的背景下,产生新型的数据库――非关系型数据库,它通过键值与存储相对应,不同的元组可以拥有各自独立的字段,如果有增添键值的情况,则可以不再受到固定结构的禁锢,这种键值对存储的方式也称为KV存储方式,它借助于键值对的方式对大数据进行索引、组织和存储,可以有效地减少读写磁盘的次数,有更好的读写性能。

KV存储技术可以用于写操作和读操作,对数据进行简单查询和复杂查询,还可以对过期的数据进行定时的合并操作加以处理。

2 BigTable非关系型数据库

由于人类对非结构性数据的需求不断增加,由此也催生出了云数据库,它可以满足人们对非结构性数据的需求,可以支持多种数据模型,其中,BigTable非关系型数据库显示出一种多维的排序状态,它不是密集形式而是疏散状态的永久性的模型,利用行键、“列键”以及“时间戳”实现对图索引,它不存在各表之间的链接式操作,整个系统是采用一个“行键”索引的访问方式,来实现对大数据的组织和处理。

三、大数据发展背景下数据库技术的应用安全

1 巩固网络外部环境,确保数据安全支撑

大数据时代背景下,数据信息是一种重要的资产,要以数据库技术为手段,对网络外部环境进行安全建构,要在操作系统层进行漏洞管理和安全维护,并主要通过以下几项技术性内容加以实现:

1.1 科学合理地匹配网络资源。在大数据发展的趋势下,网络资源的科学合理匹配是安全运行和维护的前提,要利用网络资源管理程序,对其进行科学的调度和管理,使各种网络资源在良好、安全的运行状态下进行操作。

1.2 全面完善防火墙技术。在大数据处理和组织的过程中,要全面构筑和完善数据库系统的防火墙技术,它是网络安全的第一道屏障,可以确保数据库内部数据不受侵犯,对于未知的、非法的访问可以加以有效的拦截,在对数据库访问用户进行权限设定的前提下,对数据库访问并管理的区域进行有效的划分,通过防火墙过滤技术,对安全数据信息放行安全通道,而对于非法数据则予以拦截,从而避免数据库遭受外部的攻击和意外的损害。

1.3 全面运行入侵检测技术。除了数据库的防火墙技术之外,数据库还应当注重网络系统内部的安全攻击,由于防火墙技术侧重于对外部攻击的防范和拦截,然而,来自于网络系统内部的安全攻击则需要借助于入侵检测技术,在入侵检测技术的应用和运行状态下,数据库可以便捷而迅速地对恶意入侵进行检测并锁定,有效地对入侵行为或动作朝廷阻止,通过对入侵行为的追踪和记录,从而阻止试图入侵或病毒感染的异常活动,提高数据库系统的整体安全性能。

1.4 注重系统更新程序。数据库的系统漏洞有时也是一种致命的安全威胁,它有可能使不法侵入者进入而对数据库系统进行侵犯,因而,要安装数据库补丁程序和杀毒软件,并且还要对杀毒软件的杀毒引擎和病毒库进行及时的更新。

2 强化数据库的技术安全

在大数据发展背景下,要强化数据库安全技术和手段,(1)要选用安全可靠的文件系统,尽量选用NTFS文件系统和Unix系统,不仅可以提高数据库系统的访问性能,而且可以确保数据文件的安全。(2)对于数据库文件还要进行加密处理,可以采用库外加密和库内加密两种方式,根据数据信息的状况选取适宜的加密方式。(3)使用数据库视图技术,为需求用户提供不同的视图,在视图机制之下,限定和保密不同用户的访问范围,确保数据库应用的安全。(4)云安全。在大数据的发展背景下,“云安全”技术发展出了新兴的内容,可以运用并行处理、网格计算和病毒行为判断等策略,对数据库进行异常监测,并在自动分析和处理的前提下,对每一个客户端提供病毒解决方案,高效保证数据库系统环境的安全。

3 强化数据库管理与安全水平

数据库管理系统的安全是应用过程中的最后一道屏障,它主要可以采用两种方式实施安全管理,其一,采用数据库用户口令管理方式,对于数据库使用者采用口令和用户名的复杂性验证方式,以减少被攻击的几率。其二,对于数据库角色和权限管理的方式,它可以通过不同的权限管理方式,即:系统权限和对象权限,并在权限分配方案中,提高数据库管理的灵活性和安全性。

总而言之,在大数据发展背景下,数据库技术有了新的发展要求和机遇,各种结构化数据和非结构化数据相互融合和补充,使数据库技术不断地更新和优化,并在数据安全保障技术的实际应用下,实现对多源异构数据的存储和利用。

参考文献:

[1]何明,陈国华,梁文辉,赖海光,凌晨.物联网环境下云数据存储安全及隐私保护策略研究[J].计算机科学.2012(05)

[2]王珊,王会举,覃雄派,周@.架构大数据:挑战、现状与展望[J].计算机学报.2011(10)

[3]黄清云.浅谈当代信息技术条件下数据库安全技术[J].广东科技. 2013(24)

大数据技术篇5

关键词:大数据;分布集群;高可用;高可靠

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02

1 概述

当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。

在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点:

1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。

2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。

3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。

4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势:

1)数据库自身内置的功能;

2)配置管理较简单,不需要熟悉其他第三方的软件产品。

3)物理Standby数据库支持任何类型的数据对象和数据类型;

4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。

5)在最大保护模式下,可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。

在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:

1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2)支持面相对象、xml数据类型,满足数据类型多样化的需求。

3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。

7 结束语

随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献:

[1] 齐磊.大数据分析场景下分布式数据库技术的应用[J].移动通信,2015(12):58-62.

大数据技术篇6

关键词:烟草;数据中心;大数据;Hadoop;Impala

1.大数据技术现状

当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。

1.1大数据技术现状

广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。

1.2大数据技术对烟草数据中心建设的影响

当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。

2.江苏烟草数据中心应用现状

2.1江苏烟草数据中心体系架构

目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。

2.2大数据技术的应用场景分析

随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。

3.基于大数据的自定义数据查询平台实现

3.1设计思路及架构

基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。

3.2技术方案

自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。

3.3系统实现效果

利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。

4.结束语

大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。

参考文献

[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48

[2]刘忆鲁,刘长银,侯艳权.大数据时代下的信息安全问题论述[J].信息通信.2016,181-182

大数据技术篇7

全球多家研究机构统计数据显示,大数据产业将迎来发展黄金期,IDC预计,大数据和分析市场将从2016年的1300亿美元增长到2020年的2030亿美元以上,中国报告大厅的大数据行业报告数据也说明,自2017年起,未来2-3年的市场规模增长率将保持在35%左右。大数据像空气一样,随处可见,日积月累的海量数据不得不让人们重新考虑大数据的存储和管理。

2传统关系数据库面临的挑战

基于二维关系模型的数据库在数据管理的发展历程中是一个标志性的时期,数据结构化存储,冗余较低、程序和数据具有一定的独立性、易扩充等特点。随着Internet技术的发展,涌现出半结构化、非结构化数据,对这些结构复杂的大数据的高效实时多维分析的需求越来越多。传统的关系数据库从70年展至今,虽然应用范围较广技术较成熟,但在处理海量数据方面还存在许多不足。(1)关系模型结构制约了快速访问大数据的能力。在二维关系表中,依据属性的值来检索相应的元组,受这种方式的束缚,在检索数据过程中,将耗费一定的时间,从而使访问数据的时间较慢。在存储对象设计上虽然可以使用分区的方法,提高数据访问冲突,但在大量数据的前提下,分区技术改善的性能较微弱。(2)处理大数据的灵活性不足。在应用系统中,用户的各种查询需求经常发生变化,不受时间和操作对象的约束,用户希望随时随地都能快速得到反馈结果。关系型数据库需要专门的数据库维护人员对用户的查询要求进行优化处理,不能及时的反馈给用户查询结果,这使得使用关系数据库存储数据的企业不具备对大数据的快速响应能力。(3)处理复杂结构数据能力较弱。关系型数据库对现实数据的处理常见类型为字符、数值等,对于半结构化和非结构化数据的处理只限于二进制代码文件的存储,而现今用户对复杂结构数据的要求上升为识别、检索和多维分析,如何处理占总数据量85%的非结构化数据,是许多关系数据库产品需要解决的问题。(4)存储维护管理PB级数据导致成本不断增加。数据量递增使得企业在硬件存储上投资不断增加,虽然存储设备的投入成本在逐步降低,但总成本却在逐步提高。此外,大量复杂结构的数据维护工作也给数据库管理员增加了很多负担。

3大数据库技术

随着大数据技术的日趋完善,各大公司及开源社区都陆续了一系列新型数据库来解决海量数据的组织、存储及管理问题。目前,工业界主流的处理海量数据的数据库有四种,分别是列式数据库、内存数据库、键值数据库及流式数据库。

3.1列式数据库

采用列族存储数据,将经常被使用的数据放到一个列族中,例如,经常会查询学生的学号和姓名,而不是专业,这样把学号和姓名放到一个列族中,专业放到另一个列族中,该数据库通常用来存储分布式大数据,HBase是列式数据库的典型代表。

3.2内存数据库

对数据库中所有数据的操作都在内存中完成,一般数据库也有一定的缓存机制,对大部分数据的操作都包含从外存到内存的读取,这一过程在很大程度上降低了系统的性能。由于在内存中的读/写是以纳秒为单位的,所以内存数据库的性能极高,Spark是内存数据库的典型代表。

3.3键值数据库

该数据库主要借助哈希表的结构,使用一个特定的键和一个指向特定数据的指针,利用键来完成对数据库中数据的添加、删除和查询操作,这种结构具有很好的扩展性,使系统具有较高的性能,Memcached、Redis、MemcacheDB都是键值数据库的典型代表。

3.4流式数据库

基本理念是数据的价值会随着时间的流逝而不断减少,因此,需要使式数据库来实现流式计算。流式计算处理模式是将源源不断的数据视为数据流,它总是尽可能快速地分析最新的数据,并给出分析结果,也就是尽可能实现实时计算。典型流式数据库:SparkStreaming、Storm。

4大数据SQL

大数据查询分析是基于互联网的相关服务的增加、使用和交互模式中的核心问题。由ApacheLucene的创始人DoungCutting使用GFS、Map-Reduce技术支持创建的ApacheHadoop,是一个能够对大量数据进行分布式处理的软件框架。Hadoop技术无处不在,其发展得益于Google发表的关于GFS和MapReduce的论文。在开源世界,ApacheHadoop的分布式文件系统HDFS和HadoopMapReduce完全是谷歌文件系统GFS和MapReduce的开源实现。Hadoop项目已经发展成为一个生态圈,触及了大数据领域的各个方面。由Google的BigTable和Amazon的Dynamo使用的NoSQL数据库,提倡使用非关系型的数据存储,这一全新的思维的注入,打破了关系型数据库管理系统在商用数据库领域几十年的统治性地位。

大数据技术篇8

光纤、全浸式液冷和水平机架、多宽带线路合并为一、用户配置虚拟化等,这些或者已经得到应用或者尚在研究之中的新技术,将使得数据中心的管理更为简单、运行更加平稳,也更加节能。

与电子消费产品受到了普通消费者越来越广泛的关注相比,关注数据中心的人要少得多,但这并不意味着数据中心的技术创新脚步就比电子消费品的慢。事实上,从事数据中心相关研究的科学家们同样在加紧研发各种先进的产品和技术,这些新产品和技术或者要解决数据中心面临的实际问题,或者致力于让系统工作得更加稳定。以下是近期最值得关注的6种创新性技术。

光纤技术

HDMI电缆在消费电子领域的成功经验已经证明。让一种电缆同时支持蓝光播放机、高清电视机和任意机顶盒,将会给消费者带来很多方便。英特尔基于同样的思路开发出了Light Peak技术,这种光纤将首先用于笔记本电脑和台式电脑,以提高传输速度,同时消除使用连接线时的麻烦。当然,这种光纤也可以用在数据中心,用于连接服务器和交换机。

这种光纤只有3.2毫米,粗细与USB电缆相仿,最长可以达到100英尺。英特尔已经设计了可安装在计算机中的控制器,光缆现在也进入生产环节。英特尔称,包括惠普、戴尔在内的多家公司将在2011年开始生产采用光纤连接的计算机,这些光纤将应用Light Peak技术。

Light Peak引发了人们将光纤技术应用于数据中心的兴趣。实际上,数据中心对光纤并不陌生。自20世纪90年代初,IBM推出了ESCON(企业系统连接)生产线,光纤就已经应用在数据中心,在大型机中它的数据传输速度可以达到200Mb/s。而Light Peak技术的不同之处在于,它的数据传输速度能达到10Gb/s。另外,英特尔还表示,采用该技术的光纤产品将更便宜,比现有的光纤产品更轻。

美国马萨诸塞州康科德Pund-IT公司的分析师Charles King说:“英特尔表示,由于去除了不必要的端口,Light Peak技术降低了复杂程度,也易于管理,能满足为高性能的e-SATA和DisplayPort系统提供较高吞吐量的需求。如果英特尔公司所说的这些优点真能实现,那么Light Peak将可以大大简化这些数据中心管理人员的工作。这些人一直被安装、管理和维修那些不太可靠的光缆所困扰。”

King认为,这项技术的成功与否将取决于开发商和供应商是否愿意接受Light Peak,并生产其周边产品。

全浸式液冷和水平机架

数据中心用液体冷却不是一个新概念,但下面介绍的这一冷却技术却为此带来了一个新的转折。这是由Green Revolution Cooling(以下称GR Cooling)带来的全浸式液冷和水平机架技术。

首先,它们的机架一侧是打开的,这有助于电缆管理,也让管理员能够更容易操作设备。同时,水平放置的机架完全浸入到液体中。GR Cooling的发言人表示,这种名叫GreenDEF的新冷却液是由矿物油提炼而来,无毒也不导电,更重要的是成本低。

美国德州高级计算中心(德州大学的一个下属单位)计算机系统主管Tommy Minyard说,“液体在底部和线路板之间循环流通,几乎流过了计算机的所有节点。”他解释说。这意味着更有效的冷却。Minyard正在他自己的数据中心安装GR的冷却系统,预计会比传统的空气制冷系统节省30%~40%的开支。

尽管和空气制冷相比,采用GR Cooling技术的前期投入成本要高,但是这些投入是值得的。因为这种制冷技术支持更高的功率密度,支持能耗更大的系统,比如采用了刀片服务器和英特尔最新处理器的计算机系统。超级计算机Ranger每个机架功耗就达到30千瓦。

Minyard介绍说,Cray很早以前就提出全浸入式液体冷却技术,后来一直没有真正普及,而最近这种液体冷却技术卷土重来,人们重新对它提起了兴趣。甚至IBM公司现在也重新研究计算机节点的液体冷却技术。

Pund-IT的King说,现在的主要问题是,企业对用液体冷却数据中心的回报有担心,因为这项技术的实施需要很高的投入,毕竟它还是一个未经广泛使用的技术。

GR Cooling创始人之一的Mark Tlapak说:“通常,液体冷却系统的前期安装成本比空气制冷系统要高,但是,采用我们的技术总体成本会比风冷更低。”

他解释了成本更低的原因,一个是他们所使用的液体成本比较低,另一原因采用他们的技术之后,数据中心的可扩展性更好。

“数据中心的成本与该数据中心的用电量很有关系,如果耗电量下降,那么很多方面的成本也会降下来,包括发电机、UPS、冷却塔等。”Tlapak说。

多条宽带线路合并为一

企业可以部署光纤线路,或者租用多个T1连接,但这些连接投资都不少。目前,有一种新兴技术可以提供一个低成本的解决办法。

Mushroom Networks的Truffle BBNA(BroadbandBonding Network Appliance,宽带联合网络设备)通过一种名为绑定的技术同时整合了多达6条独立的宽带连接,来提供一条高速连接。该公司说,Truffle技术能将所有可用的宽带线路组合成一条传输速度高达50Mb/s的宽带连接,这些宽带连接可以是DSL调制解调器、电缆调制解调器、T1线路或其他任何宽带连接。

这一技术既有助于提高访问互联网时的整体吞吐量。客观上也是一种备份。如果一条线路损坏,Truffle连接也能依靠其他可用的线路正常运行。

肯尼亚的一个电视制片人Steve Finn在其名为《挑战非洲》(这个节目在8个非洲国家播出)的电视节目中使用了Mushroom Networks公司的设备。他说,这个电视节日内容制作需要宽带,最多曾每月为宽带费花去4000美元。而该设备能提供4倍以上的连接速度(四个单独的线路速度叠加),而花费大约是同等高速线路的一半。

Omni Consulting Group的分析师Frank J・Bernhard说,Mushroom Networks满足了那些不想支付多个Tl或T3连接的高昂费用,却仍然需要可靠和快速的互联网接入的公司的需求。尽管其他公司(包 括恩科公司)也提供了同样的联合技术,但是要比Muahroom Networks的成本更高,安装更复杂。由此说明,该项技术还并没有广泛被应用。

让多数据中心的连接更容易

在一个大型企业中,保持多个数据中心的连接是一个很令人头疼的问题。这其中有安全问题、以太网传输的问题、操作问题(如保证各分支机构的交换机之间连接速度最快),以及由于IT业务在多个地点运行必须考虑的容灾问题等。

思科新研发了一种名为OTV(Overlay Transport Virtualization)的技术,用这种技术连接多个数据中心比用传统方法要容易得多。它基本上是2层的网络传输技术,由软件来更新网络交换机(包括思科的Nexus 7000)连接位于不同地区的数据中心。

该OSV软件每个许可证约为25000美元,它能充分利用数据中心之间建立的连接的最大带宽。思科技术发言人表示,现在市场也有一些连接多个数据中心的技术,如多协议标签交换(MPLS),更早的则有帧中继和异步传输模式协议等。该发言人解释说,与这些方法不同的是。思科OTV技术不需要重新设计网络,也不需要在内核中安装如标签交换这样的特殊服务。OTV只是简单地覆盖现有的网络,它在继承所有精心设计的IP网络优势的同时,保持了在第2层进行互联的数据中心的独立性。

总部设在迈阿密的云服务供应商Terremark使用思科的OTV来连接它在美国、欧洲和拉丁美洲的13个数据中心。该公司说,与“自己动手”进行连接的方法相比,OTV节省了很多开支。由于减少了复杂性,同时OTV还有自动错误恢复功能,这就使得在发生灾难时,多个数据中心的恢复就像一个那样简单。

Terremark的高级副总裁Norm Laudermileh说:“传统上,想要达到负载均衡或在紧急情况时实现各数据中心的自动恢复功能,需要专门的网络和复杂的软件。而采用思科的OTV,从一个地方发出的以太网信息被封装起来传送到另一个地方,这样就建立起了一个逻辑的数据中心。一旦发生故障,就可以采用像VMware的VMotion这样的技术把一个位置的虚拟机自动地迁移到其他物理位置。”

基于优先级的电子邮件存储

通信是现代企业经营的前提和基础,但我们常常见到,电子邮件在数据中心中仅仅是被当做需要归档的一个数据集来看待,没有加以细分。而Messagemind可以自动确定哪些电子邮件可以安全保存到成本更低的存储系统中、哪些邮件需要保存到性能更好的存储系统中。该工具能分析公司所有通信资料,跟踪最终用户对每一个邮件的阅读、删除或保存操作,然后按优先级分组。

数据中心管理员可以利用这些信息按照优先级存储电子邮件,这可以节省成本。例如,不用把所有电子邮件都存储在一个高成本的存储系统。那些标记为低优先级(根据最终用户的点击行为来确定)的邮件可以存储在更便宜一些的存储系统中,只有高优先级的电子邮件才存储在更高的性能、更高成本的介质中。

这个分析功能也可以用在数据中心之外的场合,比如。用到商务智能系统的仪表盘中,管理人员和最终用户在仪表盘上就可以看出某个项目谁帮助了他,企业还可以查看电子邮件的联络图,看出谁在工作项目上的沟通是高效的、谁是落后的、谁又是很少做出贡献的。

Pund-IT的King说,Messagemind有很有趣的应用前景,因为电子邮件系统现在似乎垃圾遍地,充斥着支离破碎的对话和不连贯的项目讨论。而对于常遭受诉讼困扰的公司来说,管理电子邮件非常痛苦,因为电子邮件已经成为法律证据的一部分。

“即使是最好的电子邮件解决方案,也要求员工来管理他们的信息,”King说,“如果真如广告所言,它会在企业中得到广泛应用。通过有效自动地管理电子邮件,Messagemind可以大大减轻数据中心管理员肩上的负担,让他们不用在不断增加的存储压力下苦苦挣扎。”

用户配置虚拟化

虚拟化已经成为过去10年中最时髦的词汇之一,但它通常所指的是把操作系统与服务器分离或者把数据与存储位置分离。AppSense是一种用户配置信息虚拟化的软件。它从Windows应用程序中收集用户配置信息,并将它们独立保存。这意味着,如果一个应用程序更新或更改,用户信息仍然可用。如果用户配置信息已损坏或丢失,管理员可以用最廉价的付出将其恢复。

推荐期刊