时间:2023-08-02 09:26:19
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇简述云计算的关键技术,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!

关键词 云计算过程;个人数字图书馆;动态资源供应
中图分类号G271 文献标识码A 文章编号 1674-6708(2011)48-0038-02
在信息化时代,计算机技术得到长足的发展,各类信息管理技术与数据检索系统的发展非常迅速。随着时间的推移,包含海量应用数据的数据库系统在现代社会中发挥着越来越重要的作用。动辄数十万的数据量使得数据库检索速度与查询结果的可靠性越来越难以得到有效的保证,数据库的优化逐步成为数据库系统管理的一个主要方面。针对优化数据库搜索查询功能的瓶颈,云计算被大多数数据库运用到系统个人数据的管理中,本文将对此做一个深入的探讨。
1 当前我国互联网数据管理发展现状及云计算的基本概况
众所周知,数据库系统的核心是信息管理,基本工作包括联机的分析处理、联机的事务处理、突发事件的应对等,是计算机技术在具体的社会活动中得到运用的一个重要表现。大型的数据库管理系统在对企事业单位、金融机构、政府工作部门等进行高速信息化管理的同时,高速的增长信息量影响数据库系统的检索速度和响应效率,要提高系统的终端信息处理的管理性能与效率,云计算应运而生。数据量处理要求与五年前的相比呈现出几何级数的增长趋势,这就对终端电脑提出非常高的要求,“云计算”对个人终端的处理能力有着划时代的改革意义。云计算是一种分布式的处理、并行处理和网络计算的综合发展,当你把个人信息上传到互联网相册、在优酷等视频网站上看电影、将大量的数据保存在网络邮箱时,就都是云计算的使用,可以说云计算正在不知不觉中影响着我们的生活。根据可靠数据显示,五年之内,中国的互联网用户在数量上应该会实现翻倍增长。规模如此大的用户群,我们网络的工作面临的是一个以视频流和电子商务等做处理的知识经济时代。
很明显,在实际的数据应用环境下,具体的个人数据应用情况是我们选择系统的设计与优化方案最基本的根据。而且,考虑到很多优化策略的实施有着非常大的制约作用,实际的应用过程中还必须综合地考虑到问题的不同方面。传统的网络数据管理系统的运用,大多是装在个人用户端,进行独立运行的。但是,我们今天则一般通过互联网服务于大规模数据的集中来实现这个功能,而且不在再是只有大的企业才有条件使用数据中心,广大的中小企业和个人消费者也开始应用。
所谓的云计算就是一种利用规模较大的数据中心或者超级计算机的集群,再通过互联网络将计算资源以免费或者按需租用的方式为使用者提供方便的方式。云计算的应用就是一种将网络内的力量集中起来,为网络中的每一位成员来使用。从最基本的意义上来说,“云计算”就是应用互联网上已有的软件与数据为个人用户所用。可以说,我们要缩短个人数据管理所投入的时间、提高其管理效率、进行数据库的优化,最重要的就是对系统的内部资源进行合理的优化和分配,要取得数据库执行性能实质性的提升和系统管理有效的简化,关键在云计算的运用。只有这样才能更加充分地利用到管理系统为我们提供的科学高效服务。
2 基于云计算的个人数字图书馆建设的优势和不足分析
个人数字图书馆信息系统的数据量极大,运行一段时间后会就会出现诸如系统速度太慢、管理系统死锁等一系列问题。海量的个人数据集中导致网络数据容量的不断增大,但是运用云计算就可以实现个人数字档案的在线文件夹和文件存储的功能。云计算不仅可以为用户提供安全可靠而又经济方便的数据存储中心,而且云计算因为其对用户端的设备没有很高的要求,可以很好地避免数据丢失、系统病毒入侵等不必要的麻烦。
同时,云计算还可以在不同的设备间实现数据与应用的共享,从而基本上将信息的孤岛现象消除了,可以让人们使用更加方便的网络服务。云计算可以很好地弥补个人电子设备无法无限量地提供存储空间与计算能力这个缺陷,它可以在另一端结集数千上万台服务器,组成一个庞大的集群为个人提供潜力无限量的存储空间与计算能力。
然而,我们也应该看到现阶段的云计算还存在一定的不足。云计算设立的根本用意在于建构一个供用户来共享的资源池,以减少用户的成本,提升使用的灵活性,但是在云计算的应用中也会随之伴随着一定的安全风险。这种风险在当前没有出台体系的安全模式构架与统一标准时是不可避免的。而且云计算系统内的用户无法明确知道其私密数据在云上的存储位置,其私密性与安全性有待加强,在个人的个性化服务方面也还难以尽如人意。
3 运用云计算建设个人数字图书馆
3.1 个人数字图书馆建设的基本概况
个人知识数据的管理包括5个基本的环节:个人知识的创造与整合、个人的知识加工和编码、个人知识转移和扩散、个人知识共享和交流、个人组织知识的创新。不同的个人数据就会有其不尽相同的优化过程,个人数字图书馆过程中差异性的把握往往依靠具体程序终端的操作经验,个人知识的增长过程就是在其长时间的记忆系统中存贮一定的信息内容的增长过程,它是对社会个体在实践中积累的一些具备个体的记忆价值与创新价值的信息资源进行的管理。这就导致个人数字图书馆的建设在极大程度上取决于实际的操作。
3.2 基于云计算的个人数字图书馆的建立构想
运用云计算在网络中建立个人数字图书馆,对于我们建立民生档案、集体档案、平民档案、集体档案等个人者集体档案有着至关重要的意义。我们可以针对网络上个人形成的信息化档案,配合使用传统档案组建起个人档案系统。这类信息档案的存储信息与对象都是原始性的,其创建与维护的信息是具备多样性、积极性和自觉性的。
4 结论
随着现代信息技术的迅猛发展,信息在表现形式上越来越丰富,我们构建个人数字图书馆已经离不开图像、文档、音频、视频以及软件等诸多多媒体的信息新形式。我们在个人数字图书馆应用系统的优化过程中,必须对云计算――一种全新型服务计算模式的积极运用做一个充分的分析,这些形式各异的信息可以对个人数字档案实现安全而有效的利用与管理,建立起一个使用起来方便、内容形式丰富、信息能共享的个人数字电子档案。
参考文献
[1]刘湘明,董大晖.云计算技术的分析与研究[M].北京:计算机知识与技术出版社,2006:146-250.
[关键词] 云计算;数字图书馆;现状;应用;建议
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 13. 103
[中图分类号] G250.7 [文献标识码] A [文章编号] 1673 - 0194(2016)13- 0188- 03
1 云计算对数字化图书馆建设的应用现状
图书馆是人类文明的载体,是人类知识的宝库,肩负着文化传播和文化继承与发展的重要使命。而在当今社会,人们对于信息的需求越来越要求广度和速度,因此图书馆的建设必须以需求为引导,不断加强自身职能建设,如:加快构建底层基础设施建设等,以使自身充分履行资源共享、传播知识、储存文化的职能。而先进技术的运用对于推动图书馆数字化各方面的建设作用举足轻重。
国内图书馆界对云计算应用的最先尝试,当属CALIS,CALIS技术。目前,根据云计算的运用成果分析以及未来的发展目标定位,提出了基于云计算的CALIS数字图书馆服务战略,主要包括两个方面:①构建CALIS数字图书馆云服务平台(亦可称为Nebula平台);②建立全国、区域、高校的CALIS数字图书馆云服务中心。这样就可以为用户提供不同形式的数字图书馆云服务,同时为本地数字图书馆云服务平台的构建提供有效方案。Nebula平台的构建将使图书馆软件应用能力进一步提升,为数字图书馆的服务架构模式的进一步发展和完善提供了无限的可能性。Nebula平台能够实现分布式数字图书馆服务的虚拟化,给图书馆信息资源更大程度的共建共享带来机遇,使我国数字图书馆应用进入一个云计算时代。
基于云计算技术的数字化图书馆与传统的数字图书馆相比,具有可控制、易管理、适应力强等特点。用户只要通过互联网,就可以随时随地享受云平台提供的服务。学者刘炜认为,云计算是一种利用计算机和互联网的新技术和新方式,它将计算机应用和文献信息资源全部整合于网络之中,可以为用户提供随时随地访问和共享的服务。目前,世界各大软件公司,如Google、Microsoft、Yohoo、IBM等,都在为云计算的研究和应用投入巨大努力。Google在2007年宣布实施能够覆盖全球的云计算计划,为此Google与IBM开展了积极的合作,希望将更多全球资源和信息纳入“云计算”网络体系中。Google目前已经建成Google Maps、Google Documents等云服务;而计算机巨头IBM公司也在同年退出“蓝云”计划,并已经开发如EC2、S3等云服务功能。其他IT行业的巨头如Yahoo、Microsoft也正在积极运筹和开展云服务方面的建设。各大网络、IT巨头对云服务的重视、开发和建设,使其功能不断得到拓展,存储能力不断提升,为图书馆提供了良好的信息储存、信息共享、信息提取功能。云计算以其随时获取、超级计算能力、与平台无关、易部署和扩展等优点为图书馆的数字化建设提供游离的支撑。
2 在数字化图书馆建设中的必要性
云计算对于图书馆建设的作用主要体现在下面几点。
2.1 解决资源存储的技术难题
目前,数字化图书馆发展的最大障碍是信息资源的存储问题。建立多语言检索、跨库检索、人机交互技术、数据共享数据库等搜索功能和技术有待于进一步完善。数字图书馆在建设过程中所需要的工具和软件等需要依靠先进的技术发展。而目前用户对海量信息资源的需求和对其检索速度迫使数字图书馆对于自身建设面临着前所未有的挑战,而云计算技术的应用将会弥补它在技术方面的不足,为其解决了信息资源存储的技术难题。云计算技术可以为图书馆提供强大的数据存储和数据共享功能,可以解决数字图书馆技术上的异构问题,为数字图书馆降低储存空间的成本,解决存储难题。
2.2 避免信息资源重复建设
在现阶段,图书馆还不能够完成对纸质资源和数字资源的相互补充,也不能进行数据。图书馆建设者在建设过程中,往往不会考虑自身特点和其他图书馆对数字资源的拥有和使用情况,不能够做好资源存储的规划,盲目扩大和购进本馆的数字资源,将拥有更多的资源和信息作为建设的目标和体现本馆优势的标志,从而使数字资源重复和浪费。既浪费了时间和金钱,也做了无效的工作。而云计算的出现能够很好的解决图书馆在此方面存在的问题。云计算可以把分别存储的数据和一站式检索界面相联系,对数字资源进行了有效的整合和归纳,可以为图书馆解决资源重复和浪费的问题。
2.3 解决用户信息需求,达到资源共享
云计算是图书馆服务避免了“信息孤岛”现象的出现,使传统图书馆得到良好发展,满足用户对信息服务的各方面需求,如个性化服务的需求、海量信息的需求、信息获取时效性的需求等。以往图书馆对服务器的最大服务响应数量和接入终端数量有硬性要求,使终端用户访问受到限制。与此同时,图书馆的信息资源获取只能限定在一些规模和类型相同的数据借口间达到共享,而不同规模不同类型的图书馆间信息资源的流通与共享是十分困难的。云计算技术的运用打破了这种资源封闭和受限的困境,促进了馆与馆之间的合作及资源充分共享,极大地改善了图书馆的服务功能,满足了用户对于信息资源的更高需求,为用户提供更加完善的服务。
3 将云计算运用于图书馆建设时应注意的问题和相关建议
3.1 注意网络依存性
云计算技术的运用依赖于计算机和互联网技术的发展,然而当前,我国互联网建设依旧处于落后状态,目前云计算的应用范围主要还只限定于美国等一些发达地区。这在很大程度上制约了云计算的发展。虽然云计算技术的发展受制于互联网技术的发展,但是,如果图书馆能够构建共有云模式,由云计算运营商统一管理云中节点平台的操作系统,就能够有效解决数字图书馆对互联网依存性的依存问题。
3.2 注意数据安全性
云计算技术的运用使数据能够得到最大化的共享,有时会造成数据泄漏和信息侵权等问题,如果能够建立完善的法律法规,从法律上对云数据的安全性和可靠性进行有效规范,并在法律的基础上,完善监管制度,如委托第三方机构帮助监督管理信息资源,那么数据的安全性问题就会得到很好的解决。
云计算的缺点对于图书馆的相关建设来说,并不造成特别严重的影响,如果解决妥善,将能扬长避短,充分发挥云计算技术在图书馆建设中的功能。
4 结 语
作为新生事物的云计算,其前景不可预测,云计算给图书馆的信息服务提供了重要的发展机遇和发展契机。但与此同时,在云计算技术的应用过程中,图书馆的发展与建设也面临着许多问题。一方面,政府尚未对构建数字化图书馆云平台服务提出专门的政策,并未提供大量的资金和资源支撑,因此构建云计算平台受到资金和规模等方面的限制。此外,由于图书馆购买云计算服务或图书馆云服务的过程中具有多方参与的特性,其服务质量难有保障。而这些问题,正是今后非常值得我们深入研究的课题。
主要参考文献
[1]高丽娜.大数据时代高校图书馆数字化建设的若干思考[J].沈阳航空航天大学学报,2013,30(z1):98-102.
关键词:云计算;数字图书馆;应用
数字图书馆在经历了互联网时代、WEB时代、网格时代、WEB2.0时代后,正在悄然走进云计算时代。云计算技术以其强大的功能已在全世界的一些商业领域得到了初步的应用,也引起了图书馆界的广泛关注。在不久的将来,会有越来越多的图书馆试水云计算,通过云计算来提升图书馆网络信息管理与服务的水平,云计算将在数字图书馆中得到大规模的普及。
1 云计算的内涵
云计算指的是一种全新的计算模式,它依靠的不是个人电脑,也不是独立的服务器,而是一种用户无需关心其内部结构的“云”。云计算集成了所有的信息资源,并由系统软件对其进行管理,用户不用关注信息资源的安全性与可靠性等问题。在云计算的基本结构中,主体部分是由服务器集群构成的云,为了实现其计算能力的最大化,通常会使用虚拟化、集群化等技术。狭义的云计算是指信息技术基础设施的交付和使用模式,指用户通过互联网以按需、易扩展的方式获得所需的资源;广义的云计算是指服务的交付和使用模式,指用户通过互联网以按需、易扩展的方式获得所需的服务。这种服务可以是信息技术和应用软件、互联网相关的,也可以是任意其他的服务,它具有超大规模、虚拟化、可靠安全等优势。
云计算的特点主要表现在:(1)强大的计算能力。云计算为网络应用提供了强大的计算能力,完成普通计算难以达到的各种业务要求。(2)可靠的数据存储。云计算提供了可靠的数据存储中心,数据可以自动同步传递,并可通过Web在所有的设备上使用,避免了用户将数据存放在个人电脑上而出现的数据丢失或感染病毒等问题。(3)方便、快捷的云服务。云计算时代,用户不需要安装和升级电脑上的各种应用软件,只需要具有网络浏览器就可以方便、快捷地使用云计算提供的各种服务。(4)经济效益。云计算服务提供商的存储成本、带宽成本、计算处理成本等加起来也只有机构自身运营数据中心成本的几分之一,这将有助于一些机构以比较低廉的架构成本进行运作。
2 基于云计算的数字图书馆功能优势
2.1 技术优势。对数字图书馆的所有成员馆可以提供统一的访问方式和一致基础设施服务。这种统一的资源服务访问方式,不仅能够充分利用数字图书馆中现有的服务器资源、网络资源、存储资源,减少数字图书馆中的资源闲置问题,同时也避免了数字图书馆中各种硬件资源的重复购置。在这种统一的资源服务访问方式下,数字图书馆不仅可以直接通过数字图书馆主服务器来请求资源的调用,而不用管数字图书馆主服务器是如何去分发自己的请求,以及调配哪一个虚拟服务器所对应的物理服务器来处理自己的请求;也可以在知道内部块服务器访问接口的情况下,直接指定要访问的虚拟服务器所对应的物理服务器来处理自己的请求。
2.2 硬件建设优势。与传统的数字图书馆硬件建设相比,基于云计算的数字图书馆硬件建设具有一些优势。如对硬件的性能要求低,传统的数字图书馆硬件建设需要性能完备且价格昂贵的硬件设备不同,基于云计算的数字图书馆利用多个廉价服务器集群来实现强大的数据处理和计算功能。虽然使用廉价的服务器集群,部分服务器可能出现故障,但云计算集群服务所支持的冗余性,也就是同一个服务请求可以在某个虚拟服务器上失效的情况下转发给其他正常工作的虚拟服务器进行处理,保证了数字图书馆云计算服务的高可用性。
2.3 资源整合优势。整合最丰富的数字图书资源,实现资源的高度共享,是云计算时代数字图书馆的重要特征。在云计算技术对数字图书馆的有利支持下,可以更好、更充分地发挥互联网的自身优势,最大限度的实现资源聚合。进入云计算时代,数字图书馆不但可以聚合全国各地的数字图书资源,甚至可以将全世界范围内的数字图书资源都聚合到云端的存储服务器中,供读者查阅、使用。数字图书馆这些功能的实现,既依赖于云处理技术和互联网技术的不断进步,也展示了云计算时代信息处理和交流协作方面的优势。云计算环境下的数字图书馆几乎完全消除信息孤岛,不断完善数字图书馆资源整合,真正实现信息资源共享。
2.4 用户服务优势。云计算时代的数字图书馆服务更加关心用户需求,致力于为读者提供更加全面和更加优质的服务。提供数字图书资源的过程中,一方面是数字图书馆将大大提高资源的共享效率,另一方面数字图书馆将随读者个人需求的不同将继续向更加个性化、自由化、多元化的方向发展。读者上数字图书馆平台可能不是为了阅览或者不仅仅是为了获取图书资料,读者可能是为了进行交流或者使用数字图书馆的其他方面功能,所以“读者”称为客户或用户更合适。云计算环境下的数字图书馆不仅在功能上有很大的扩展,而且可以为用户提供更加快速、便捷、优质的服务。用户只要接入“云”端,就可以不受时间和空间的限制进行自我学习,从而满足用户的个性化需求。
3 云计算在数字图书馆中的应用
3.1 基于云存储的数字图书馆服务。基于云计算的数字图书馆以云存储为核心,图书馆所有的信息资源都将存放于“云”上,由“云”来管理和调度这些海量数据,用户通过网络接入并动态部署虚拟硬件提供的存储和计算能力。云计算通过分布式存储实现对图书馆海量数据的存储,冗余存储的方式保证存储数据的可靠性,与之相关的虚拟技术使得整合后的图书馆海量数据更加统一有序,最终实现对数字图书馆资源的完全整合。
云计算技术最大限度的降低了服务器的出错概率,确保了海量数据存储系统的可靠性和数据安全性。其次,基于云计算的图书馆海量数据存储方式提高了信息资源的更新速度,只要“云”中的图书馆修改和添加新的信息资源,用户就能在第一时间内获取。此外,云计算的出现使图书馆存储系统的扩展能力得到大大的提高,“云”提供的近乎无限的空间和计算能力。而且,云计算模式的出现大大降低了海量数据存储系统建设和维护成本,可以通过少量的费用让图书馆获得“云”中上百万台服务器提供的服务。
3.2 基于云计算的图书馆自动化。云计算环境下,图书馆自动化系统应用的各项功能已进行细化拆分,系统提供商按照标准协议提供功能包,图书馆用户可按本馆需求选择理想的功能包,不同厂家的功能包数据标准统一、相互畅通。图书馆用户可按照自身的需求将这些功能包整合为一个具有本馆特色的自动化系统。对于计算机能力强的图书馆,可以采用云计算环境下的各种Open API,直接读取互联网上的特色数据:如利用Google maps提供图书馆各馆分布的地图、根据豆瓣网中的图书评论考察图书质量、在Amazon网上书店的直接订购图书资料等。云计算时代的数字图书馆自动化系统,将图书馆的馆藏资源与全球的其他相关数字资源整合,拓展了图书馆的读者服务形式和内容,构建成更加贴近读者服务的数字图书馆。
3.3 基于云服务的数字图书馆设施整合与建设。通过云服务,对现有资源的整合,将数字图书馆分散的数据资源、IT资源进行物理集中,形成了规模化的数据中心、虚拟服务器等基础设施。尤其对于数图书馆联盟,通过规划、管理以标准化等措施,把分散在子图书馆的数据源进行迁移、整合、集中,建立基于云计算的数据中心。在数据集中过程中不断实施数据和业务的整合,使大多数图书馆的数据中心基本完成自身的标准化,既使原先信息服务得到扩展又将开发新项目的部署和实施。解决原先联盟馆数据业务分散时期的资源杂乱无序的问题。数字图书馆通过不断的标准化体系建设,将形成统一的信息平台、统一的基础数据、统一的信息服务规范,这样数字图书馆的资源和服务进行了整合和统一,将其演进到“云”上使消灭信息孤岛成为可能。
4 结语
云计算的发展使得云计算开始深入各个行业,并给各个行业带来了巨大的发展空间和商业空间,也使得各个行业向着网络化方向迅速发展。云计算下的数字图书馆为行业提供了全新的潜在市场,将云计算技术充分应用到数字图书馆中对数字图书馆的产业发展产生深远影响,相信云计算的应用必将成为图书馆行业的里程碑。
参考文献
云计算作为近年来研究与应用领域的热点话题,被大多数IT企业和业内人士认为是下一代计算机网络技术应用的核心架构。云计算(Cloud Computing) 是一种全新的网络应用概念,是网格计算(Grid Computing)、并行处理(Parallel Comp)和分布式处理(Distributed Computing)、虚拟化(Virtualization)、网络存储(Network Storage Technologies)、效用计算(Utility Computing)、负载均衡(Load Balance)的发展结果。从业务形态来说,它是利用虚拟化等技术将服务和资源整合在一起,向用户提供平台、基础设施和软件的一种新的商业计算模式。
1 云计算给数字化图书馆带来的机遇
1.1 实现资源共享
云计算机的应用服务通常分为三种,SaaS(Software as a Service,云计算软件服务)、PaaS(Platform as a Service,云计算平台服务)、IaaS(Infrastructure as a Service,云计算设备服务)[1]。云计算产业细分后,各类云计算服务商可以聚焦自己的核心领域,最终形成了强强联合、协作共生的关系。这将加快全球化信息技术快速发展,从而真正实现全球化的信息共享。云计算为数字化图书馆提供了海量数据存贮的能力,使用者只要能接入互联网,就能享受到数字化图书馆,实现了网络虚拟环境下最大化的资源共享。
1.2 实现使用便利
云计算在数字化图书馆的应用使得数字化图书馆更加的便捷和方便,使用者既不需要受时间和空间上的限制,更不需要在个人终端上安装任何软件,甚至可以不用使用常规的计算机,由提供云计算的服务商为使用者提供一个虚拟的计算机,使用者只需要在任何一个云终端登录到自己的云虚拟电脑上即可以获得云时代的数字化信息。
1.3 低成本
针对“云”的特殊措施,数字图书馆技术采用极其廉价的节点来构成云,“云”的自动化集中式管理使很多图书馆无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费很少的成本和时间、就能完成以前需要数万元、数月时间才能完成的任务。云计算下的数字图书馆,也为行业提供了全新的潜在市场,将云计算技术充分应用到数字图书馆中会对数字图书馆的产业发展产生深远影响,相信云计算的发展必将成为图书馆行业里程碑。
2 云计算的关键技术
2.1 数据存储方式
云计算系统的主要组成部分是很多的计算机服务器,并且能够为很多的用户提供全方面的信息服务,为了能够为“云”用户提供可靠的服务,云计算系统中存储数据采用的是分布式存储以及冗余存储方式。Google的GFS以及Hadoop团队开发HDFS是云计算系统中应用最为广泛的数据存储系统。
Google File System(GFS)是一个分布式文件系统,它由Google设计并实现,是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。Hadoop是一个开源的分布式软件平台,Hadoop用于存储的分布式文件系统Hadoop Distributed File System(HDFS)借鉴了GFS的设计理念。
首先在架构上,GFS和HDFS是一致的,都是采用的拓扑的结构,所谓的拓扑结构是指系统中各个服务器之间的物理或逻辑的互联关系,这两者都被设计为一个中心控制服务器为中心的星形结构的拓扑模型,这样有利于服务器的动态分配和回收,在云计算系统中服务器资源有限的情况下,可以通过中心控制服务器控制和管理整个系统中其它节点的运行,从而保证系统运行正常以及资源的最大利用率。其次在块大小、元数据等实现上,这两者之间也是一致的。
在关键技术上这两者之间还是存在很大的差异:首先,GFS最为复杂的部分是对多客户端并发追加同一个文件,即多客户端并发Append模型。GFS允许文件被多次或者多个客户端同时打开以追加数据,而HDFS文件只允许一次打开并追加数据,客户端先把所有数据写入本地的临时文件中,等到数据量达到一个Chunk的大小,一次性写入HDFS文件系统。其次对快照的支持上两这者之间存在差异,GFS通过内部采用copy-on-write的数据结构实现集群快照功能,而HDFS不提供快照功能,另外在文件的删除上两者也是存在差异的,GFS并不是在master上直接删除文件,而是通过特殊标识的方式标识该文件,并控制该文件不再被普通用户所访问,同时master会定期对文件系统进行检查,删除一段时间前所隐藏的文件。而HDFS则是采用直接删除但是更加容易实现的方式来删除文件。
2.2 安全性
云计算技术做为一种全新的服务模式,其安全性超过了任何常规服务模式,也是至关重要的[2]。一旦用户把自己的个人数据提交到云服务平台之后,用户将无法对其安全性进行保证和监控,而是由云计算服务商提供安全保障策略。目前市场上云计算服务商数目巨多,都向用户承诺数据的安全性,但目前看效果并不理想。云计算主要面临着管理风险和技术风险,云计算面临的管理风险:锁定风险、失治风险、合规挑战风险、商业信誉风险、云服务终止或故障风险、云提供商收购风险、供应链故障风险;云计算面临的技术风险:资源耗尽、隔离故障、管理接口漏洞、传输中的数据截获、数据泄露、密钥丢失。这些安全性问题急需解决,这是关系到云计算技术能否普遍应用的决定性因素。
2.3 数据挖掘
数据挖掘技术主要是依赖人工智能、模式识别、机器学习、数据库、统计学、可视化技术从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取不易为人知的但是有巨大价值的关联信息,是数据库中的知识发现的核心。数据挖掘技术主要分为数据整理、数据集成、数据筛选、数据转化、数据挖掘、模式评估和知识表达几个步骤。该技术的目的是从大量的杂乱无序的数据中自动分析数据,做出归纳统计,从中挖掘出潜在的模式,为用户提供价值信息。数据挖掘技术在数字化图书馆中的应用可以优化图书馆期刊的布局,提高效率节省资源。也可以为读者提供个性化服务,通过对读者借阅量的统计分析读者的周期借阅习惯,结合现有资源向读者推荐其喜好图书,提高图书馆的服务质量。
2.4 海量数据搜索
随着云计算技术的不断发展和使用性的普及,云服务器上的数据几何级增长。云计算,它能处理的数据量已不再是MB、GB,而是成TB、PB的增加。并且会伴随着大量的大数据出现,大数据被认为是未来发展的战略走向。在云计算中如何快速的从这些大量的数据提取和搜索关键字快速找出用户需要的数据是一个非常关键的技术。
2.5 用户认证
用户和云之间的相互认证是保证云数据被合法访问的前提,云是一个广阔的分布式系统,拥有海量用户,其动态性和不可预知性使得其违法行为不易被追踪和管理。如果不对云用户的身份认证进行严格的识别和管理,会给黑客和不法分子以可乘之机,危害到合法用户的权益和云计算技术的普及。目前在云计算中最常用的认证方式是口令的认证方式和基于KPI数字证书认证方式。口令认证方式快捷简单,但是这种认证方式容易遭受网络攻击;基于KPI的认证方式有较高的认证强度,但是在云环境下证书的认证基础设施建立的难度比较大和复杂度比较高。文献[3]提出一种基于椭圆曲线的3PAKE认证方案,该算法能有效的防止口令攻击且容易部署。
2.6 版权保护
云计算使得用户可以通过某种协议进行全球范围的信息存取,给用户带来便捷的同时,也可能造成一些非法用户对数字化信息进行准确无误地复制、及快速传递散布等,这给著作权人希望拥有控制作品使用能力造成致命的伤害,也是阻止云计算技术普及的阻碍因素之一。有效保护著作人的权益要依赖于完善的法律法规、道德规范建立和版权保护技术。法律法规和道德规范需要政府和整个社会制定和建立长期的有效机制来实现。数字水印技术[4]在版权保护中的优势被越来越多人所关注,数字水印技术是通过在待保护的视频、图片和文本等数字化产品中不可感知的嵌入可认证信息[5],并且保证不影响产品的可读视性,非法的拷贝会损伤到事先嵌入的可认证信息。一旦需要认定产品的著作权时,可以从产品中提取事先嵌入的认证信息,从而鉴别产品的合法性。
关键词:云计算;电子文件管理;关键技术
云计算时代的来临,且伴随着运用力度的不断加大,越来越受到人们的关注,一度成为业界人士相继研究的重要课题之一。源于云计算的普及,颠覆了以往支撑电子文件管理实现的技术框架,也促使其电子文件管理朝向多元化方向发展,但其关键技术的研究并不多见。故而,对云计算环境下电子文件管理关进技术的研究有着重要的现实意义。
1 云计算环境下电子文件管理技术框架
云计算环境下的电子文件包管理同时兼有资源虚拟化(SAAS层次上)与对云平台提供商所提供云服务的优先选择和配置双重特性,而随着私有云的渐次成熟,终究会带动公共云和混合云的发展。因此,其技术构架涵盖如下:
(1)固件或硬件层。交换机、硬件服务器等基础设备,服务于软件的内核层的管理、操作及更新;内核层经操作系统内核、集群中间件、虚拟机监控器等,实现对固件或硬件层的管理。
(2)分布式数据(非结构化)存储。事先配置好存储量大小,常以64MB为以组块,以主服务器提供的形式,在各个组块经索引后,实现不同数据管理服务器的存储,且云计算环境下的全部数据存储,均由文件系统管理。
(3)分布式数据(结构化)存储。包含Bigtable、RDS及HBase等技术,在云计算中,电子文件元数据的存储通常都是在分布式结构化表中,由其管理系统进行统一管理。
(4)分布数据处理技术。在云计算中,电子文件管理系统采用以MapReduce为主的分布式数据处理技术对电子文件进行处理。
(5)电子文件管理基础。电子文件封包、凭证管理、文件完整性校验、数据分布式存取、文件监控等,提供出基础与核心功能。
(6)电子文件管理业务服务。包括信息捕获、系统管理、保管与处置、安全与监控、检索与再现及非电子管理等,负责虚拟化和电子文件管理数据库的实现与形成。
2 云计算环境下电子文件管理关键技术
鉴于云计算环境较之于以往电子文件管理环境具有的特殊性,其技术突破(即关键技术)应围绕数据信息建模技术、结构与非结构数据分布存取技术、电子文件数据溯源技术进行。
1. 数据信息建模技术
要将不同电子文件封装要求不尽相同这一点纳入到数据信息建模技术中,如提交信息包(SIP)、存档信息包(AIP)及信息包(DIP)的信息模型及实现不同信息包之间的转换,同时要结合云计算技术特性,如大文件组块管理、多副本管理、数据分布式管理等。
2.结构与非结构数据分布存取技术
云计算环境下的电子文件管理较之于传统电子文件管理系统,最大的区别在于数据分布呈现出结构化与非结构、且异构电子文件海量,存取多具复杂性。如
Google文件系统,采用中心服务器管理技术,数据不支持缓存,只在用户端备有专用的接口。云计算环境下的电子文件管理要实现文件分块、多副本管理、MapReduce、加入结点动态等过程具有挑战性。
3.电子文件数据溯源技术
在云环境中,其特殊性为电子文件与其元数据的溯源提供了技术支持。在云计算中,电子文件的回溯基本上可划分为结构化数据表与非结构化数据。在Bigtable中,其数据模型的组成主要包括行、列及时间戳。而且,在云计算中,非结构化数据的存储通过采用多副本技术,能有效地溯源文件实体对象。然而,并不是云计算中的所有技术都能操作电子文件与其元数据的回溯,因此,在云计算中,凭证性回溯技术的管理还需要进行进一步的突破。
3 云环境下电子文件管理相关关键技术实现方案
云环境下电子文件管理关键技术的实现,要在对传统电子文件管理环境进行改观的同时纳入云计算这一因素,因而,要抓住和掌握相关实现要点,并在此基础上,渗透到云计算的各个层次中,达到电子文件管理的最优化。
1.实现要点
1.1底层技术与核心技术相平衡
云计算供应商所提供的云服务,应将操作简便性、实用性作为首要特征,电子文件管理关键技术的实现首先要考虑技术的可操作性。新技术的研发固然重要,首先要避免刻意追求新技术的复杂化,注重原有技术的重组,达到底层技术与核心技术相平衡,确保底层技术和核心技术二者之间的协调发展。
1.2经济性与稳定性相平衡
云计算环境下电子文件管理系统必须要达到经济性与稳定性相平衡目的,事实上,经济性通常会不利于系统的稳定性,在容错问题的处理上尤为多见,因其会涉及到Master、Sever、数据管服务器等部分。在计算与存储能力均等的基础上,搭建云端服务器集群的成本要远远低于对超级计算机购买的成本,而较低成本的云端部署与服务器硬件,避免了集机群更新换代的烦恼,且用户可采用瘦终端来实现加大云服务的功能。
1.3灵活性与安全性相平衡
灵活性涉及到多副本管理、节点动态管理、动态故障恢复、故障动态监测等方面,可使电子文件管理系统管理方便化,在带来方便的同时也带来了可靠性、一致性及保密性等方面更高的管理要求。因此,在云环境下,必须要保证灵活性与安全性的平衡,以保证电子文件管理系统的方便性与安全性。
1.4针对性与可持续性相平衡
实现云计算中的电子文件管理系统并不是一步到位的,而是要通过统一的规划,按照步骤一步一步实现的,并注重部门的协作及部门间的资源共享。而针对性是区别电子文件管理系统和各种业务应用系统的主要特点之一,电子文件管理务必要遵循相关功能标准,同时还要注意可持续性。
2.实现方法
在云计算中,实现电子文件管理系统的方案多种多样,但可以划分为两大类:商业解决方案与开源解决方案。但由于考虑到文件管理的特殊性与未来不可知性,因此建议采用开源解决方案。现阶段,开源方案的主流方向主要有:Hadoop、Nimbus、Eucalyptus,而Hadoop与Eucalyptus则是通过模仿商业解决方案而来的。通过对现阶段的实现技术的普及度、成熟度、技术公开性及未来的发展趋势等方面进行综合考虑,建立在云计算中的电子文件管理系统应采用Hadoop的编程模式。作为Apache开源组织所提供的分布式计算机框架,Hadoop包括多种编程技术,且具有较大的可靠性与可可扩展性。因此,在现阶段的通用技术框架中,可以采用HadoopHDFS技术实现非结构化数据的存储、采用HBase技术实现结构化数据的存储、采用MapReduce技术实现分布式处理及采用ZooKeeper技术实现锁服务。
4 结语
综上所述,随着关键技术的越来越成熟及应用的越来越广泛,电子文件管理的实现逐渐发展到采用公共云及混合云技术,并渗透到云计算的各种层次中。因此,在未来的工作中,必须要对云计算进行充分的分析,以研究出最好的实现技术。
参考文献
[1]薛四新.云计算环境下电子文件管理的实现机理[J].档案学通讯,2013,13(3):65-66.
[2]薛四新,黄萃.云计算环境下电子文件管理研究综述[J].北京档案,2011,12(9):25-27.
关键词:电子文件云计算关键技术
云计算的应用将导致支撑电子文件管理实现的技术框架发生本质上的转变。目前,国内外学者在云计算对电子文件管理的影响和所带来的新问题等方面进行了一定研究①,但缺少对云环境下电子文件管理关键技术的系统研究。本文重点探讨整合应用这些技术的通用框架、关键技术、实现原则和建议方案,为云环境下电子文件管理系统的构建提供技术基础和实施依据。
1 云端电子文件管理系统的技术框架
云环境下的电子文件管理系统不仅需要实现SaaS层次上的资源虚拟化,而且还应根据电子文件的特殊性,对其他云服务提供商提供的平台层和设施层的云服务进行选择、配置和优化使用。私有云的成功实践和成熟推广会进一步推动云环境下的电子文件管理的研究、应用与发展,并进一步带动相关管理部门和人员认识水平的提升,最终将逐渐会被混合云或公共云替代。
基于云计算的技术框架和电子文件管理的系统建设和应用需求,采用分层方法设计云环境下电子文件管理系统的技术框架是实现电子文件管理的首要任务,图1呈现了电子文件管理系统的技术框架
1.1固件/硬件层主要包含硬件服务器和交换机等物理基础设施,为软件内核层提供硬件的操作、管理和更新服务;软件内核层负责管理固件/硬件层的物理硬件设备,通常由操作系统内核、虚拟机监控器、集群中间件等工具和技术来实现。
1.2非结构化数据的分布式存储。电子文件通常是以非结构化或半结构化数据方式存在,云计算环境中非结构化大数据的存储通常采用分布式文件管理技术如Google的GFS、Hadoop的HDFS等。非结构化大数据的存储过程中,一般按照实现配置好的大小(默认为64MB)进行分块,并对每个分块进行唯一索引后存储在不同的数据块服务器上,所有数据块服务器由主服务器统一管理,力求控制流和数据流的分离。在云环境下,电子文件特别是大数据对象的文件将被存放到分布式的非结构化文件系统中,由文件系统统一管理。
1.3结构化数据对象的分布式存储。云环境下结构化数据的存储技术有Google的Bigtable、Amazon的RDS、Hadoop的HBase等技术,与传统关系数据库不同的是,云环境下的结构化数据模型一般由一个行关键字、列关键字和时间戳进行索引,其数据访问需要数据锁服务。云环境下的结构化数据的分布式存储一般采用主服务器和子表服务器进行分工管理,其中主服务器负责新子表的分配、子表服务器的监控和负载均衡等问题。在云环境下,电子文件的元数据一般存储在分布式结构化表中,由分布式结构化数据管理系统统一管理。
1.4分布式数据处理。与传统电子文件管理系统不同的是,云环境下的电子文件管理系统中将会采用以MapReduce为代表的分布式数据处理技术来处理电子文件,需要对目前的电子文件管理系统中普遍采用的数据处理算法和技术实现工具进行改进或重新设计。
1.5电子文件管理基础服务。该层为电子文件管理业务层提供一些共性的基础和核心功能,包括电子文件封装、电子凭证管理、完整性校验、分布式存取、电子文件监控和电子文件的溯源。
1.6电子文件管理业务服务。电子文件管理业务服务主要包括信息捕获、安全与监控、保管与处置、检索与再现、系统管理、非电子文件管理,负责实现电子文件管理业务服务的虚拟化,形成电子文件管理的工具资源池。电子文件管理用户可以通过系统提供的接口,包括人机交互界面(如Web界面)和程序编程接口(如Web服务、API等),以租用的方式享用电子文件管理基础服务的各项功能。
除了上述组成部分之外,云环境下电子文件管理还需要系统管理、安全保障、容错机制和服务质量等技术,它们贯穿于云环境下的电子文件管理系统的所有层次,需要统一设计和研发。
2 云端电子文件管理的关键技术
图1所示的云环境下的电子文件管理的通用技术框架的应用需要如下关键技术的突破:
2.1电子文件的对象建模技术
电子文件的对象建模是电子文件管理系统的关键步骤之一。在不同的电子文件管理标准中,对电子文件的封装要求有所不同。如何构建SIP ( Submission Information Package,提交信息包)、AIP ( Archival Information Package,存档信息包)、DIP (Dissemination InformationPackage,信息包)的信息模型以及如何实现这些不同信息包之间的相互转换是云端电子文件管理中需要解决的技术问题。此外,电子文件对象建模技术还需要考虑云计算环境本身的技术特殊性,如多副本管理、大文件分块管理、分布式处理等特征。因此,电子文件对象的建模与封装是云环境下的电子文件管理系统实现过程中需要解决的关键技术之一。
2.2海量异构电子文件的分布式存取技术
海量异构电子文件的分布式存取是云端电子文件管理系统与传统电子文件管理系统的区别之一。以Google文件系统为例,主要技术特点是采用中心服务器模式,不缓存数据,在用户态下实现和只提供专用接口。目前的电子文件管理中采用的数据处理技术不能直接应用于云环境下的分布式数据处理任务中。云环境下的电子文件管理需要进行大文件的分块、MapReduce、多副本管理、结点动态加入、用户态下实现等特殊操作。因此,面向海量异构电子文件的分布式存取技术是云端电子文件管理的重要课题之一。
2.3电子文件及其元数据的溯源技术
云计算技术本身的特殊性为电子文件及其元数据的溯源提供了良好的技术保障。云环境下电子文件回溯可分为两类:结构化数据表的溯源和非结构化数据的溯源。以Bigtable为例,其数据模型由行、列、时间戳组成。与传统数据库不同的是,Bigtable中采用了关键字排序、列簇(ColumnFamily)存储和时间戳,可以很容易在不同版本之间回溯。此外,云计算环境中的非结构化数据的存储中采用了多副本技术,也较好地支持文件实体对象的溯源。但是,云计算中的这些技术并不能完全支持电子文件及其元数据的回溯操作,如证据保留和凭证生成等。因此,凭证性回溯技术是云端电子文件管理中需要突破的重要技术。
3 云端电子文件管理的实现方案
图1所示的云环境下的电子文件管理通用技术框架和上述关键技术的实现需要以下基本原则和实现方法。
3.1实现原则
基于以上分析,可以归纳出,云环境下电子文件管理系统的构建需要遵从以下基本原则:
3.1.1底层技术的简单性与上层应用的复杂性之间的平衡原则。简单实用性是云计算服务模式的重要特征。其简单实用性主要体现在两个层面,一是在云计算的设计思想中,云计算的实现并不追求新技术的创造,而更加重视现有技术的重组;另一个是云计算的实现技术上,云计算一般采用简单实用的实现技术,不主张实现技术的复杂化。以Amazon提出的SDB(SimpleDB)为例,这种技术不需要实现定义模式信息,其属性的修改添加以追加形式实现,操作类型简单(不支持像连接、排序等复杂操作)。然而,底层的简单实用往往会增加上层应用的复杂度。因此,在云环境下的电子文件管理系统的设计和实现中,不仅要考虑底层技术的简单实用原则,而且还注重避免上层应用的复杂性,力求在二者之间达到平衡。
3.1.2经济性与稳定性之间的平衡。经济性也是云技术的重要特征之一,云计算的经济性体现云端和终端的经济性。云端的经济性体现在云端部署在成本相对较低的服务器硬件之上,不追求服务器集机群的实时更新换代。在计算能力和存储能力相等的情况下,搭建一个云端服务器集群的成本要低于购买一台超级计算机作为服务器的成本;终端的经济性体现在云计算对终端的要求较低,用户可以使用瘦终端就可以调用功能强大的云服务,不需要购买昂贵的软硬件设备和进行繁琐的软硬件管理与维护工作②。因此,云环境下的电子文件管理系统的设计应遵循经济性原则,可直接部署在配置较低的普通服务器硬件上,而且应支持多种类型的终端设备。但是,经济性原则往往带来稳定性问题,尤其是容错处理问题。经济性带来的容错处理是云计算的重要难题之一,涉及云计算中的Master服务器、Sever服务器、数据管理服务器等每个组成部分。因此,在经济性和稳定性之间的平衡是云环境下电子文件管理的重要指导原则之一。
3.1.3灵活性与安全性的统一。灵活性(或弹性)作为云计算的重要特征,涉及节点动态管理、故障动态监测、动态故障恢复、多副本管理、动态租约管理和弹组合。显然,灵活性给电子文件管理系统的技术实现带来了较大程度的方便性。但是,灵活性也给电子文件的一致性、可靠性和保密性提出了更复杂的管理要求。因此,保证灵活性与安全性之间的平衡是云环境下的电子文件管理系统的IT实现的重要指导原则之一。
3.1.4针对性和可持续性的统一。针对性强调的是电子文件管理系统与其他业务应用系统的区别性,主要强调电子文件管理系统遵循相关的功能要求标准的符合程度。当前国内外关于与电子文件管理系统的功能要求标准有ISO15489、DoD5015.02、Moreq2、ICA、《电子文件归档与管理规范GB/T18894-2002》、《电子文件管理系统通用功能要求》等。因此,云环境下的电子文件管理系统的实现中必须遵循这些原则和要求,具备较强的针对性或专业性。同时,针对性的实现也要支持和遵循可持续性。云环境下的电子文件管理系统的实现并不要求一步到位,应统一规划,分步骤实现,重视部门协同和资源共享。因此,针对性和可持续性的统一是云环境下的电子文件管理系统的研发中必须遵循的原则之一。
3.2实现方法
云计算环境中的电子文件管理系统的实现技术方案有多种,可以分为两大类,即商业解决方案和开源解决方案。考虑到电子文件管理需求的特殊性及未来应用的可扩展性,建议采用开源解决方案。目前,主流的开源方案有Hadoop、Eucalyptus、Nimbus和Sectorand Sphere。其中,Hadoop和Eucalyptus分别模仿了两个主流的商业解决方案,即Google和Amazon的云技术。综合考虑实现技术的成熟度、普及程度、内部技术的公开性和未来发展趋势,建议在云环境下的电子文件管理中采用基于Hadoop的开源解决方案。
在云环境下的电子文件管理系统的开发中应采用基于Hadoop的编程模式或类似于Hadoop的编程模式。Hadoop是Apache开源组织提供的一种具有高可靠性、高可扩展性的分布式计算机框架,包括Hadoop Common、Avro、Vhukwa、HBase、HDFS、Hive、MapReduce、Pig和ZooKeeper等编程技术③。其中,Hadoop HDFS、MapReduce、HBase、ZooKeeper、Pig分别对应Google的GFS、MapReduce、Bigtable、Chubby和Sawzall。因此,在图1所示的通用技术框架中,可以分别使用Hadoop HDFS、HBase、MapReduce和ZooKeeper技术实现非结构化数据的存储、结构化数据的存储、分布式处理和锁服务。
4 结语
以云计算为中心的新型信息生态环境为电子文件管理提供了新的计算模式和技术实现方案。在这种生态环境下,云端电子文件管理系统的初期建设往往定位于SaaS层的私有云。随着关键技术和典型应用的成熟与发展,电子文件管理将逐渐采用混合云或公共云技术,并将渗透至云计算的不同层次。为此,本文将云端电子文件管理系统的通用技术划分为七个层次,探讨所需的四项关键技术,并提出了研发电子文件管理系统的基本原则和实现方案。因此,本文研究对于云环境下的电子文件管理系统的研发活动具有重要的指导意义。在未来的工作中,我们将重点进行实证分析,并进一步完善本文研究成果。
本文是北京市科技计划课题《基于异构系统的电子档案凭证性保障核心技术开发与应用》(项目编号Z111100075011001)、国家自然科学基金项目“语义Web环境下的大规模协同知识处理模型研究”(项目编号71103020)和国家社科基金重大项目《云计算环境下的信息资源集成与服务研究》(项目编号:12&ZD220)的成果之一。
参考文献:
薛四新,黄萃.云计算环境下电子文件管理研究综述[J].北京档案,2011(09):25-27.
朝乐门,张勇,邢春晓.云端信息资源管理研究[J].情报资料工作,2010(4):44-49.
关键词:云计算;数字图书馆;建设
云计算环境下的数字图书馆是信息时代的新兴产物,是主要以信息技术的集成为核心,包括数字化技术、安全保密技术、数据仓库与联机分析处理技术、自然语言理解技术等手段的新时代图书馆。
1 云计算的概念
1.1 云计算的定义
云计算是由网络计算、分布式计算、并行计算、网络存储、效用计算等传统计算机技术和网络技术所组成的新型计算方式,代表着计算机技术的又一次发展。狭义的云计算是指网络上按需、易扩展的方式获得硬件、平台等领域的资源的形式。为用户提供资源的网络就是“云”。云计算可以整合所有的计算资源,并无需人为参与,由软件自行管理。云计算需要不断提高“云”的计算处理能力,以减小应用提供者对繁琐细节的处理,有利于创新和提高成本。
1.2 云计算的特点
云计算的特点有①云计算的规模宏大,如Google“云”的规模达到了100多万台服务器,Amazon、IBM、微软、Yahoo等机构的“云”也达到了几十万台服务器的数量,甚至一家企业的私有云的服务器就达到数百上千台;②云计算的用户所需要的资源来自于虚拟的“云”,用户只需要在计算机或手机上运用网络服务就可以将需要的资源从“云”中提取出来;③由于“云”的技术措施包括数据多副本容错、计算节点同构可以互换等,所以对服务的可靠性有了高保障,甚至可靠性要远远高于本地计算机;④由于云计算不针对单一的应用,所以在同一个“云”的支持下可以构建出多个不同类型的应用,可以支持不同应用在各个终端运行;⑤“云”具有高度扩展性,它的规模可以随需要自动调整,能够根据应用和用户数量的变化进行动态伸缩;⑥云计算还具有按需购买的特性,用户能够根据自己的实际需要进行计费。
2 数字图书馆的概念及发展
数字图书馆不仅是互联网上的图书馆主页,还包括了所有数字化图书资源的,是一套完整的、分布式的、面向网络用户的、与现实载体无关的数字化资源的集合。1988年,美国科学家W.Wulf在国际合作白皮书中正式提出“数字图书馆”的概念,其后由美国国家科学基金会等机构联合发起了数字图书馆先导计划,“数字图书馆”开始越来越广泛地进入到公众视野中,对数字图书馆的研究也开始火热起来。目前,数字图书馆的研究重心主要是信息、知识的集成服务和增值服务。
3 云计算环境下的数字图书馆建设
3.1 云计算环境下的数字图书馆的资源建设
云计算环境下数字图书馆的最大的优点是资源丰富,形式多样化。集成大量的信息资源,充分利用一切可用的资源和服务,建成内容丰富、服务多样的数字图书馆是云计算环境下的数字图书馆的重要任务。云计算的PaaS平台可以为数字图书馆的资源建设提供更大范围。
3.2 云计算环境下的数字图书馆的资源储存
浩如烟海的数据储存是云计算的强大功能,“云”由成千上万的服务器构成,能够帮助需求越来越多的数字图书馆用户实现各种资源的搜索和分享。云计算环境下的数字图书馆的馆藏资源不再只是储存在自己的单一服务器上,而是可是储存在任何一台连接“云”的电脑上。
3.3 云计算环境下的数字图书馆的服务对象分析
与传统图书馆不同,云计算环境下的数字图书馆的服务对象是虚拟用户,这种虚拟用户可能是真实的一个人,也可能是一个团体、机构,甚至可能是一种自动运行的程序。这些用户范围广泛,数量众多,几乎涵盖了社会各阶层的人,或者只是一个客户设置的自动搜索应用程序。信息检索是大多数使用数字图书馆的用户最常用的功能,也是数字图书馆的基本目的。由于数字图书馆能将该专业的大量资源搜集汇合,所以在专业数字图书馆检索是高效的方式。还有一部分是针对数字图书馆的学习娱乐的文献和视频在线点播的用户。由于用户类型不一,云计算环境下的数字图书馆所要提供的服务也应随之改进。应该努力扩充馆藏信息资源,并提供多样化的信息表现形式以方便不同类型的用户使用。
3.4 云计算环境下的数字图书馆的服务模式
云计算环境下的数字图书馆服务模式主要分为两种,一种是虚拟参考咨询服务,它的服务手段包括①通过用户填写DRS系统主页上的Web表单,向系统发出搜索要求,然后系统采取将答案在Web页面或通过E-mail的形式是用户得到回答;②用户和DRS系统专家都以E-mail的形式提问和解答,系统还可以通过对用户的定期需求的记录通过E-mail进行自动服务;③通过Chat、MSN、QQ等方式把传统咨询服务延伸到虚拟环境中的“面谈”服务,实现实时交互参考咨询,使虚拟参考咨询系统更加人性化;④FAQ方式是一种把用户需要频率较多的一般性问题加以整理,形成问题与答案的文档或系统学科导航模式,放在Web主页的显著位置,以使一部分用户的需要得到快速解决。第二种是主动推送服务,是一种运用推送技术来主动对用户提供服务的方式。
3.5 云计算环境下的数字图书馆基础设施整合
云计算环境下的数字图书馆以云计算服务器为核心,通过动态部署的方式对虚拟的硬件服务器进行有序安排。用户的动态请求驱动云计算服务器,然后由动态部署硬件提供计算和存储。大型的数字图书馆可以将实体资源转化为灵活度高的巨量资源,为其他数字图书馆提供可更新的交互服务。通过云计算整合各数字图书馆的资源,为各数字图书馆间提供了一种合作之外的交流方式。在云计算的支撑下,图书馆公共联机检索不仅可以搜索馆藏资源,还可以实现新型服务的重组,成为资源与读者匹配的核心组织。
3.6 加强云计算环境下的数字图书馆的信息安全和知识产权保护
云计算环境下的数字图书馆最大的担心是馆藏数字资料、书目数据、读者数据和流通数据的安全性,一旦这些数据丢失,将带来严重的损失。为了确保数据的安全,云计算服务商采用先进的海量虚拟化存储技术,利用数据副本的形式实现容错,通过对各个虚拟盘创建多个副本的方式提高数据的可用性和访问体验。另外,云计算环境下的整个熟悉图书馆产业结构都要对信息安全问题进行研究,形成政策层面上的共识和行业规范。为了保护数据的知识产权,应引进PKI公钥基础设施,在公钥加密和数字签名服务的系统平台上,使云计算环境下的数字图书馆在网络应用中更加高效、便捷地使用加密和数字签名技术,使数据的保密性和完整性得到保障。
4 结束语
只要有一台可以连入互联网的设备就可以使用数字图书馆的资源,推动数字图书馆的建设有助于方便人们的生活,提高人们的综合素质,云计算的出现数字图书馆建设创造了更好的环境。
参考文献
[1] 毛丹. “云服务”环境下的图书馆数字资源共享平台建设研究――以安徽省党校图书馆为例[J]. 江西图书馆学刊. 2012,14(06):32-34
[2] 秦晓珠,张兴旺,李晨晖. 移动云计算环境下的数字图书馆云服务模式构建研究[J]. 情报理论与实践. 2012,25(05):65-66
[3] 倪煜佳. 基于云计算的图书馆联盟服务平台构建研究[D]. 东北师范大学 2012,13(42):11-13
[4] 周舒,张岚岚. 云计算改善数字图书馆用户体验初探[J]. 图书馆学研究. 2010,33(04):41-43
关键词:云计算;Web;数据挖掘;互联网
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)16-0015-03
互联网是一个革命性的产业,它打破了人们的生活习惯和格局,同时随着互联网用户的不断增长,它的数据网络和数据信息也越来越详细和丰富。就如何在这样大数据之中提取出来有用的数据信息就是Web要做的工作,在大量数据挖掘出来后数据本身之间的关联性以及如何将这些挖掘的数据再次的运用到实际生活中这都是Web数据挖掘技术要突破和解决的问题。当前,大规模的数据在一个计算机上几乎无法操作了,科技发展和社会需求下的产物云计算应运而生,它处理和存储数据的能力非常强大,并具备对所存储的数据进行分析处理以及计算的超强能力。
1 云计算的应用及技术特征
1.1 云计算的应用现状
Web也是经历了一个漫长的成长和发展的过程。它在互联网技术和电子商务高速兴起的基础上,基于人们对网络的应用更加广泛和频繁,带动了Web2.0的一场兴起浪潮。数据的需求对互联网企业来说成为了竞争的核心内容,尤其是一些需要根据客户目的性需求而开设的网站,例如看网络视频的网站就更加的需要数据化来分析和开发有客户需求的产品。云计算的诞生解决了很多技术上的难题。我国的互联网用户非常庞大,且还处于增长的趋势,这就使得很多的大型企业和公司都在使用云计算来进行数据的分析和研究。
1.2 云计算技术分析
云计算主要就是对数据进行管理,它所处理的核心也就是数据,因此它和其他的计算机技术存在差异,具体如下:
一是,具有广泛性,云计算技术它最重要的就是存储技术,采取了大量分布存储的模式可以大大地提高存储的速度和存储的能力,同时也具备较高的性价比。它能够很精准的进行存储,非常实用。
二是,对数据的管理能力强,对大数据的跟踪监控具有时效性,并能够随时的处理数据分析数据,效率极高,也可以对数据库的信息和数据进行有针对性的筛选和查找,管理技术非常先进。
三是,应用到先进的编程技术,技术因素是云计算能不能达到良好用户体验的重要因素,它是支撑整个云计算系统良性高速运行的核心,这就需要整个的编程技术能够满足用户的需求和良好体验。目前Map-Reduce编程模式用得较多,它开始是以一个树枝的结构呈现出来的,分支后还将使用其他的编程模式来执行。
四是,虚拟化技术的灵活运用。云计算技术对虚拟化技术运用很广泛,虚拟化技术能够将计算资源进行合理的分配,它可以独立各个不同级别的系统,将各个系统进行独立化也将数据分成若干独立的部分,形成了一个动态的独立的分工体系。它使得整个的系统具有很大的弹性,能够很灵活的进行动态虚拟资源的使用,节约成本,由于他的结构的弹性和灵活性使得它能够降低管理的风险。
2 Web数据挖掘的发展现状
2.1 Web数据挖掘的概念
所谓的Web数据挖掘,即是Web、数据挖掘、计算机语言与信息学等技术与方法的融合,数据挖掘与Web得到融合之后,便能够体现出较好的综合性。对挖掘对象展开较为全面的分析之后,Web数据挖掘还可以被分为结构、内容与使用等多方面内容。其中,对于内容来说,其是指通过人工化模式组建,在Web环境下,从对应的文件夹当中,完成应用者信息的提取;对其结构来说,其是指通过人工化模式组建,对各种类型的结构实施挖掘,继而利用不同方式完成信息的提取;对于使用挖掘来讲,其是把被挖掘的对象集中在日志文件当中,然后以此为突破口,将站点用户量等数据展开挖掘。由此可见,数据挖掘也就是利用技术的手段来对Web文档中的数据进行提取,也就是根据现有的信息资源来进行分析和预测它的发展前景。Web数据挖掘技术并不是单一的某项技术而是多个技术的共同作用。
2.2 Web数据挖掘的分类
Web数据挖掘的分类方式有很多种,从它的兴趣类别来分可以分为下面三个部分,也就是Web数据挖掘的内容、结构和用法。从内容上说,就是Web数据挖掘的对象,也就是我们数据信息的载体,包括我们所获取的一些视频图片,音频文字等等的一些实质性的信息。内容的挖掘也可以细分的,主要就是分为纯文本的挖掘和多媒体的挖掘,这样细分能够更好的区别挖掘的对象。从Web数据挖掘的结构来说,就是获取这些内容的所挖掘的结构对象,主要就是区分挖掘内容是属于页面结构还是组织结构,同时还要对数据所形成的数据链也进行分类,并对这个的数据挖掘工作的效率和准确率进行提高。从挖掘用法上,也即是对Web的文档和网页中的内容和资料,进行分析和研究,来通过原始的数据对信息资源的挖掘区别用户的类型,将用户的类别进行分类,发现更多的潜在的客户。
2.3 Web数据挖掘的流程
Web挖掘流程会受到很多因素影响,它因为本身的挖掘方式与对象和传统的挖掘模式差别较大,因此流程也存在很大的差异,Web数据挖掘的流程有多个方面:将数据挖掘技术和Web网页两者进行融合还是很困难的,因为Web数据挖掘技术并不是几个技术的简单叠加,它是一个整体,包含可以对信息进行检索、选择需要的信息并对信息初步的处理、找到模式并进行分析这一系列的过程。对信息的检索也就是查找就是通过对文档中的信息和各种网站的一些新闻、日志等等数据信息进行分析。第二阶段就是对第一阶段所获取的信息进行甄别和筛选,剔除一些没有价值的信息和数据,并将有用的数据信息进行简单的处理。最后一阶段就是对所预处理的数据和信息进行进一步的筛选和验证,提取出有价值的信息。这个过程既需要机器的自动化来完成也需要通过人工的甄别来实现。
3 基于云计算的Web数据挖掘
3.1 基于云计算的Web数据挖掘体系架构
Web数据的挖掘它是分为几个点的,数据的挖掘体系也就是这几个节点之间存在的一系统框架结构的相关联,云计算使得Web数据挖掘的构架的节点相互作用,相互影响,形成了一个较为成熟的架构体系。结构图如下。第一个节点是主控节点,它主要是连接了客户端到各个节点的纽带也是一个中枢纽带。第二个节点是算法节点,它的任务是保证在数据运行中有对应的算法支持,相当于一个算法的仓库。第三个节点是数据节点,是一个庞大数据库来存储数据信息。第四个节点是服务节点,它主要的作用就是执行主控的任务和反馈计算后的结果。
分析图1我们可以发现,根据对Web数据挖掘体系的功能进行分析研究可以将该架构分为若干个层面。
一是,服务层。服务层是一个将用户的结果通过Web数据挖掘体系构架实现数据的挖掘,并将结果呈现给用户的一个过程。
二是,控制层。控制层是由主控节点来实施的通过对用户所反馈的结果的分析,找出并提供最合适的算法,做到数据和算法的契合性。
三是,算法和数据存储层。这个层面的主要作用是对提供的数据和反馈数据及所运用的算法进行存储。它不仅就所提供的原始数据进行存储对挖掘结果也会进行存储。算法和数据存储区还加大了数据和算法丢失的概率,即便系统有问题也可以轻易地从存储区里找到要的数据信息而恢复原本的数据。
四是,业务处理层。它是主控的数据在算法计算下的结果,将存储层的数据进行挖掘通过主控点来重新分配数据,结果再由服务节点返回到主控节点的一个过程。
3.2 基于云计算的Web数据挖掘算法
基于云计算的Web数据挖掘算法步骤如下:
第一步,根据数据挖掘服务请求来对置信度阙值进行确定,一般这种服务请求由Web浏览器提出的。
第二步,客户端向主控节点发出的任务,数据存储的节点就会向主控节点申请数据并返回有服务节点处理过后的数据。
第三步,主控节点的数据将发给算法的存储节点,算法节点会根据所存储的大量算法,筛选出最佳的挖掘算法,并将这些算法应用到每个服务节点。
第四步,每个服务节点都会有针对性地对各个数据进行筛选,从而将数据库中的数据进行系统的分类和规整,用Apriori算法,得出不同数据库的一部分频集。
第五步,将服务节点处理的这些结果反馈主控节点上,得出整个数据库全局的频集。在将这些发送到每个服务节点之上就可以得到更加准确的局部频集。以此类推,再将服务节点处理的结果反馈到主控节点上,得到更加精准的全局的频集。
第六步,把第五步的过程重复操作,直到生成符合用户定义的频集,再根据置信度阈值生成关联规则,而将关联规则也发送给主控节点。
第七步,主控节点将得到的关联规则返回给用户。
3.3算法结果分析
算法的结果需要实验数据的支撑,根据分析可以看到算法的效率和数据量之间的一个正相关关系。传输过程中的时间也存在差异,一般传输算法的时间要远短于传输数据的时间。Web数据挖掘算法和其他的算法有明显的不同,但是它也可以通过对其他的算法的改进来得到自己的全新的算法。Web数据挖掘算法是一个系统的算法,每个节点之间都有相关联性,不会出现对有效关联规则的遗漏现象。
4 总结
Web数据挖掘就是对我们的在Web文档和互联网其他途径所获取的大量的信息进行筛选分析并加以利用。它可以根据人们的习惯、兴趣、来了解人们的需求。现在在网络上的信息量还在快速的增长,对计算的能力和存储的能力都是考验,如何很好的挖掘出有用的信息数据,打破技术的局限性和瓶颈。就是要将云计算的存储能力结合网络平台进行快速推广和运用。云计算下的Web数据挖掘可以通过网络的优势方便统一的管理和调度,可以充分的利用云计算的存储能力和空间,将多资源结合Web数据挖掘网络体系进行全面的开展。提高了对网络资源和信息数据的利用率也提高了挖掘数据的效率和能力。
参考文献:
[1] 许艳丹,张前进,王志宏. 数据挖掘在物联网中的应用研究[J]. 周口师范学院学报,2016(2).
[2] 朱兴荣. 数据挖掘技术在网络空间课堂教学评价中应用[J]. 电子商务,2016(4).