线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

大数据分析论文8篇

时间:2023-03-22 17:36:43

大数据分析论文

大数据分析论文篇1

关键词:灰色关联分析;高被引文章;高被引作者;被引频次;影响因子

中图分类号:G232 文献标志码:A 文章编号:1673-291X(2016)29-0173-04

论文的被引次数是反映论文学术影响力的重要指标之一。有学者研究认为,高被引论文对影响因子的贡献率普遍较高[1,2]。论文的引用情况也经常被用来评价科研人员的绩效[3-6]。利用论文的被引情况来反映论文的影响力时,一般又认为与作者的名气有关[7],作者的名气越大,发表期刊的级别越高,被引次数应该就越高。有限的期刊资源更倾向于刊用名气大的作者的论文,长此以往,则形成期刊界的马太效应:对一些名家一稿难求,而大量名不见经传的作者的论文就会难以得到及时公开发表。这种主观的判断是否正确?什么条件的作者发表的论文被引频次高?作者如何提高自己论文的被引次数?本文以《灾害学》作为研究期刊,以该期刊的作者作为研究对象,通过2004―2013年10年间刊出的1 286篇论文的所有作者与所被引频次M行相关性分析,同时参考2014年和2015年的数据,以期通过大量的数据,探讨作者论文被引的规律性。通过本论文的研究,也可以为期刊提高期刊的影响因子提供借鉴。

一、研究方法

一般的抽象系统中都包含着许多因素,多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中,哪些是主要因素、哪些对系统发展影响大等等,而使用灰色相关性分析可以弥补其他系统分析方法的缺陷,适用于本论文的研究。

灰色系统理论是华中理工大学邓聚龙教授于1982年提出的,该理论利用灰色关联分析来分析因素之间的相关程度[8]。灰色关联分析是根据比较参考序列曲线和比较序列曲线之间的几何相似度来判断二者之间相似程度的,利用灰色关联系数来比较参考序列曲线和比较序列曲线在各点的差异[9,10]。

二、数据来源和统计方法

本研究以《灾害学》期刊作为研究对象。从研究学科来看,《灾害学》是进行综合性研究的学术期刊,它以各种自然灾害,包括自然灾害和人文灾害作为研究内容,通过对各种灾害事件的分析讨论,总结经验,吸取教训。从研究内容来看,广泛交流灾害科学的学术思想、研究方法、研究成果;从研究方向来看,注重关于灾害问题的研究动态和防灾减灾对策、人类抗御灾害的科技水平和能力等等的探讨。因此,通过对该期刊的研究,能够全面筛选出各灾害学相关研究的被引次数。

本研究引用的数据来源于“中国知网”()2004―2015年的数据。其中以2004―2013年的数据作为数据来源,同时参考2014年和2015年的数据。普赖斯认为,科研论文一般在其发表后1―2年即达到被引用最高峰,因此选用2004―2013年10年的数据,2014年和2015年的数据仅作为参考数据。

本研究利用灰色关联分析,以被引次数最多的50篇论文的相关数据作为研究基础,从论文的被引次数与该论文的下载量、论文作者的职称、的时间、论文研究范围四个方面进行分析。

三、被引用率灰色关联度分析

(一)确定比较数列和参考数列

本文选取论文的被引次数作为参考数列,以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列,如表1所示。

表1 影响因子及变量设定表

其中,职称按照从高往低赋值:设正高=1,副高(博士)=2,中级(硕士)=3,初级=4;研究范围从大到小赋值:设世界性=1,全国性=2,地区性=3,市县等=4,则被引次数最高的50篇论文的相关数据如表2所示。

(二)无量纲化

由于系统中各因素列中的数据可能因计算单位的不同,不便于比较,或在比较时难以得到正确的结论,因此,在进行灰色关联度分析时,一般都要进行标准化 (无量纲化)的数据处理。本文利用公式(1),以P50的数据为基准,对原始数据数列和比较数据数列进行初始化运算,以消除量纲或数量级的影响,得到标准化后的数列(表3)。

(三)产生对应差数列表

将无量纲化后的比较数列与参考数列进行差值计算,并求绝对值,将之列如对应差数列表,内容包括与参考数列值差(绝对值)、每列最大差和每列最小差。然后计算最大差值和最小差值。

四、灰色关联的结果分析

通过灰色关联分析法可知:

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1,说明这四个方面与论文的被引次数相关度非常大。

2.从论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面来说,相关度大小排序为:研究范围>时间>作者职称>下载数量。说明论文被引用率影响较大的还是论文本身研究范围。也说明论文刊出时间越长,关注的学者越多,被引的可能性也越高。作者职称和下载数量低于前两个因素。

3.利用灰色关联度分析法研究结果对把握期刊的服务对象和办刊理念有极大帮助。灰色关联度分析法克服了传统数理统计方法中对样本需要量大、计算量大等缺点,有利于分析期刊研究过程不完全信息中随机因素的显著性和关联性,开拓了期刊研究的新方法。

参考文献:

[1] 刘雪立.10 种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报,2014,26(3):296-300.

[2] 毛国敏,蒋知瑞,任蕾,等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究,2013,25(2):293-307.

[3] 叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103.

[4] 方红玲.我国科技期刊论文被引量和下载量峰值年代――多学科比较研究[J].中国科技期刊研究,2011,22(5):708-710.

[5] 黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用――以长江大学及其主办的学报为例[J].长江大学学报:社会

科学版,2012,35(9):184-186.

[6] 任胜利,柴育成,姚玉鹏,等.地球科学国际主流期刊的引文分析[J].科学通报,2002,47(1):74-79.

[7] 李斐然.如何创作被引次数最多的论文[J].创新科技,2012,(1):58.

[8] 曹惠玲,黄乐腾,康力平.基本AHP及灰色关联分析法的发动机健康评估研究[J].数学的实践与认识,2015,45(2):122-129.

大数据分析论文篇2

数字化档案的凭证价值,取决于元数据的整体性,如果对于某份数字化档案的元数据整体中某一项元数据缺失,那么该份数字化档案的凭证价值也就丧失。因此元数据的实施一定要标准化,要想保证元数据在实施中的整体性,只能依靠标准化。

1数字化档案管理元数据需求分析的内涵

在现有的国际、国内、行业等标准的基础之上,才能实现数字化档案管理元数据的需求分析,这些是针对具体的数字化档案类型、用户、业务管理流程等采用科学的方法所进行的元数据模型中元数据功能项的设置分析及对其描述的过程。这个功能的意思是要基于元数据元素、元数据模型。根据这一定义,应该明确的是,数字化档案管理元数据的需求首先是一种功能需求,需要确定需求分析的信息源并施以科学的方法。

2 数字化档案管理元数据需求分析的信息源

数字化档案管理需求分析的信息源,是以数字化档案管理元数据需求分析的信息来源范围为主要的另外包含权威性文献、数字化档案本身、用户等。

就其本身而言的话,数字化档案的分类丰富,有多媒体数字化档案、视频档案、音频档案、图像、图形档案盒数字处理档案,因此,其信息源范围可以是关于字处理档案、图像档案、图形档案、音频档案、视频档案以及多媒体数字化档案的管理元数据范围的需求分析。

针对权威性文献而言,权威性文献可以分为法规、标准、政策、规范、最佳实现及理论等,因此,其信息源的分析范围可以是国内外的有关文件管理、档案管理和数字化档案管理的法规、标准、规范、最佳实践及理论中存在着的有关对数字化档案管理元数据需求的分析。

针对用户而言,信息源的分析范围可以是对文件管理者、档案管理者、数字化档案管理者、计算机系统管理员以及数字化档案利用者所提出的分析方法。

3 数字化档案管理元数据需求的分析方法

在数字化档案管理元数据领域中,对数字化档案管理元数据进行需求分析,要采用科学的方法才能保证其分析的科学性和准确性。笔者认为,有两类方法:一类是自上而下演绎分析法;另一类是自下而上归纳分析法。

3.1自上而下演绎分析法

3.1.1文献参考法

文献参考法,以“文献”形式表述有关法规、标准、政策、规范等,以保证符合现行法律的规定,是从“文献”的抽象到具体数据元的确定的方法。主要是从所涉及文件管理的文献中概括出数字化档案元数据的需求。美国匹兹堡大学的元数据项目是运用此法的主要代表项目,该项目主要研究文件管理的中凭证要求(简称《baC项目》)。

3.1.2理论推导法

从文件管理理论出发进行归纳演绎,以层层递进的逻辑来验证数字化档案管理元数据的合理性,即是理论推导法。

目前流行的文件管理理论主要有:文件连续体理论、文件生命周期理论和文件运动理论。不论采取哪种理论作为我们的研究依据,都对数字化档案管理元数据的需求均具有一定的指导意义。

以澳大利亚元数据研究项目《教育、研究与产业合作项目》(SPIRT project)为例,他们所制定的元数据主要依据澳大利亚所独创的“文件连续体理论(records continuum thinking)”;而加拿大不列颠哥伦比亚大学研究项目《数字化档案完整性保存项目(UBC)》则依据的是文件运动理论理论。按照我国目前的档案管理相关理论,我们要采取在我国比较流行的文件生命周期理论。

3.2自下而上归纳分析法

3.2.1调查访问法

通过对文件创建人员、文件管理人员等相关的专业人员等进行跟踪访谈和数据分析,按照用户的实际需要,在大数据的基础上得出数字化档案管理元数据需求。另外用到此方法的是在跨国联合项目――文件永久性凭证性问题在电子系统里的应用(简称INTERPARPES)。

3.2.2流程实际法

按照档案实际管理的业务流程为基础,通过数字化档案在管理过程中的运动为分析的切入点进行需求分析。研究者持有这类分析方法会认为文件管理流程和元数据是分不开的,所以,要理解元数据,就要紧紧联系数字化档案管理流程实际,值得注意的是,不是传统的手工管理业务流程。

以上方法各有优劣,如文献参考法,可以从宏观上保证建立的数字化档案管理元数据具有合法性和凭证性,但建立的标准过于宽泛;理论推导法,可以保证其合理性和系统性,但建立的标准偏向理论性,实用性不强;基于用户访问法建立的标准,其实用性和操作性较好,但缺乏完整性与系统性;流程实际法,即使具有可行和运用性范围依旧被局限。所以说,数字化档案管理元数据的需求分析时,需要综合作用各类所学多种方法分析需求,而不是孤立、单一的只作用一种方法,这样做才可能满足数字化档案元数据更全面和客观的需求。

4关于数字化档案管理元数据需求分析体系模拟建构

在以上探讨数字化档案管理元数据需求分析的内涵、信息源及方法的基础上,笔者尝试模拟建构需求分析体系。

首先,根据具体行业、应用领域的目标与特点,确定数字化档案管理元数据需求分析的信息源;需求分析的信息源主要包括,文献(规范、标准)、数字化档案本身、用户、数字化档案管理业务流程等方面。其次,对需求分析信息源进行分类整理、审读,综合采用科学的方法对信息源进行分析,简练出数字化档案管理数据的需要并形成需求陈述。再次,针对各需求陈述进行元数据的提炼,将提炼到的元数据进行分类,再将具体的元数据纳入到分析框架。最后,判断元数据元素项的设置,形成数字化档案管理元数据体系模型。

参考文献:

[1]阴庞龙,何景武. 大型客机构型管理研究[J]. 民用飞机设计与研究,2009(S1)

大数据分析论文篇3

〔关键词〕情报分析;期刊论文;文献计量;综述

DOI:10.3969/j.issn.1008-0821.2013.10.039

〔中图分类号〕G250.2〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0166-06

我国情报分析研究起步于20世纪50年代,在80年代后大量吸收国外的新观念,新技术,新方法而迅速发展起来[1]。时至今日,情报分析、情报理论与管理、情报检索与技术并称为情报学研究的三大领域[2]。情报分析是情报学区别于其他学科的核心竞争力所在[3]。迄今为止,我国有关情报分析的研究论文数量颇丰,然而有关情报分析的综述却寥寥无几,且已有综述年份跨度小,样本数据有限,不利于从宏观上把握情报分析领域的总体研究进展。因此,在情报分析研究日趋成熟的今天,有必要对以往的研究情况进行全面的回顾与总结。基于此,本文全面搜集过去35年(1978-2012)间情报分析领域的研究论文并进行计量统计分析,旨在总结该领域的研究现状,分析其进展和不足,并对情报分析的研究趋势进行预测,以期对未来情报分析的研究提供一定的参考与借鉴。

本次样本文献主要检自国内两个权威的大型期刊数据库:《中文科技期刊全文数据库》(1989-2012)和《中国期刊全文数据库》(1978-2012),由于,在我国情报分析又称信息分析[4],因此分别以“情报分析”和“信息分析”作为检索词,以题名为检索入口对两个数据库中的中文期刊论文进行搜集,在《中文科技期刊全文数据库》中共检索到1 383篇相关文献,在《中国期刊全文数据库》中共检索到1 654篇相关文献,通过对两个数据库中的论文汇总后进行剔重,最后得到有关情报分析的研究论文共1 797篇,这些论文构成了核心样本,为其后统计提供直接的数据佐证。

1我国情报分析研究论文的统计分析

1.1数量及发表时间分布

研究论文是一个领域科研成果的集中体现,论文数量在时间上的分布情况一定程度上可以反映该领域学术研究的进展状况以及发展速度。1978-2012年有关情报分析的论文,按时间分布如表1所示。

表1可见,20世纪80年代左右,我国情报分析研究的论文数量呈缓慢增长态势,此时研究领域比较单一,多集中在科技领域。90年代开始,有关情报分析的研究逐渐多了起来。具体的时间分布趋势如图1所示。

图1可见,我国在过去35年间,有关情报分析研究的发文情况可以分为4个阶段。第一阶段:萌芽阶段(1978-1984年),发文量在10篇以下,这一阶段,情报分析在我国刚刚起步,研究数量稀少;第二阶段:探索阶段(1985-1994年),发文量在10~20篇之间,在这一阶段,有关情报分析的研究开始波动增长;第三阶段:发展阶段(1995-2005年),这一阶段发文量在20篇以上,呈稳步增长的态势;第四阶段:成熟阶段(2006-2012年),这一阶段,发文量呈快速上升趋势,并在2011年达到了最高发文量223篇。由此可见,情报分析已经成为情报学主要研究分支,可预见在未来,有关情报分析的研究数量将会持续增加,并将得到各行各业更多研究者的关注,同时也说明情报分析在现代社会的不可或缺性及重要性。

大数据分析论文篇4

[关键词]学术期刊 评价指标分类 因子分析 聚类分析

[分类号]G304

1 引 言

学术期刊是国家科技发展水平的重要窗口,是知识创新、科技成果转化为生产力的重要桥梁,在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提,目前期刊评价方法有几十种,有些评价方法不需要对期刊评价指标进行分类,如主成分分析、灰色关联、TOPSIS等方法,但是有些评价方法必须建立在期刊评价指标分类的基础上,包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断,指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的,更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架,并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时,将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同,期刊评价的指标选取不同,当然分类也不一样。对于大多数评价指标而言,不同学者的分类基本相同,但由于学术期刊评价指标的特点,对于少数指标,不同学者分类截然不同,如基金论文比指标有的作为学术质量指标,而有的作为文献特征指标;即年指标有的被作为时效性指标,有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外,目前学者主要采用主观分类法进行分类,没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例,采用聚类分析与因子分析等客观分类法进行分类和比较,试图确定学术期刊评价指标的分类方法,从而为进一步的期刊评价打下基础。

2 方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种,它把一个没有类别标记的样本集按某种标准分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远,而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。

对一组数据,既可以对变量(指标)进行分类,也可以对观测值(事件,样品)来分类,对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类,它们在数学上是无区别的。在学术期刊评价中,可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可,不需对其含义作准确解释;因子分析要求所提取出的因子有实际含义,因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子,因此,可以借用因子分析进行指标的分类,与主观分类不同的是,由于因子分析是完全根据数据进行的客观分析,

因此不能首先确定一级指标的名称,而应该根据因子分析的结果对公共因子进行命名。

3 数据

本文数据来自于中国科学技术信息研究所CSTPC数据库,以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库,同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据,共518种医学期刊,如表1所示:

由于要对期刊进行评价,所以必须对数据进行标准化处理,每项指标最大值设为100,然后按比例进行调整。此外,被引半衰期和引用半衰期是两个反向指标,必须进行适当处理,方法是用100减去其标准化后的结果后再做标准化,这种处理方式是线性处理方式,比反向指标取倒数的非线性处理方式要科学一些。

4 指标分类结果

4.1 聚类分析

采用层次(hierarchical method)R聚类,第一步把最近的两个指标合并成一类;度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类;再度量剩余的指标和小类间的亲疏程度,并将当前最接近的指标或小类再聚成一类,如此循环,每次都少一类,直到最后只有一大类为止。越是后来合并的类,距离就越远。采用SPSS 15.0进行数据处理,选择组内联系最大法(within-groups linkage),结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类,都是期刊影响力的指标;影响因子(x7)与即年指标(X8)被划为一类,还是期刊影响力的指标。在此基础上将以上4个指标划为一类,是可以解释的。然后以此为基础,依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4),关联性相对较弱,如平均引文数与期刊的影响力关系并不是很大,海外论文比和基金论文比与期刊影响力有一定关系,但基于聚类分析的角度,似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类,几乎无法从理论上找到这种关系,在此基础上又和扩散因子()(3)聚类,更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类,从理论上也无法解释,在此基础上和他引率(x2)聚类,也无法解释。

由于期刊评价指标的特殊性,如果采用聚类分析对指标进行分类,结果可能是不能令人信服的,本文是基于大量数据分析得出的结论,应该是比较可靠的。

4.2 因子分析分类

同样采用SPSS 15.0进行因子分析,首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标,一般要大于0.5。本文采用SPSS进行数据处理,KMO值为0.680,也就是说,符合因子分析的条件;Bartlett值为3319.828,P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13),前4个指标都是与被引相关的指标,可以用影响力加以概括,地区分布数也是影响力的一种体现,影响力越大,论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标,即年指标比较特殊,在第一因子中的系数为0.34,说明它也是影响力指标;在第四因子中的系数为0.424,第四因子包括引用半衰期和被引半衰期,也与引用相关,但第二因子系数最大,为0.531,所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3),也与被引相关,是影响力的体现,因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12),它其实主要反映的是期刊的时效性情况,因为引用半衰期较短的论文,一般比较新,其参考文献也相对较新

因此,根据以上分析,可以将学术期刊指标分类如下:①影响力指标:总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13);②期刊特征指标:即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14);③时效性指怀:被引半哀期(x6)和引用半衰期(X12)。

大数据分析论文篇5

关键词:SCI;JCR;投稿;医学期刊美国《科学引文索引》(ScienceCitationIndex,SCI)是国际上公认的最具权威的科技文献检索工具。通过论文的被引用频次的统计,对学术期刊和科研成果进行多方位的评价研究,从而评判一个国家或地区、科研单位、个人的科研产出绩效,来反映其在国际上的学术水平[1]。由于SCI具有严格的选刊标准和选用论文标准,而且每年略有增减,从而做到SCI收录的文献能全面覆盖全世界最重要和最有影响力的研究成果。虽然全世界每年出版的科技期刊多达10万种以上,但是入选SCI的期刊不及全世界科技期刊总量的6%。因此被SCI收录的论文可以认为是较高水平、有一定学术代表性的文章。

《期刊引证报告》(JournalCitationReports,JCR)是基于SCI(E)的分析型数据库,它对SCI(E)所收录的期刊之间的引用和被引用数据进行统计、运算,并定义了各项计量学指数加以报道,是目前国际上用于评价期刊国际竞争力的最便捷有力的工具之一。

本文利用JCR的期刊数据和SCI数据库自带的分析功能分析SCI源期刊的年载文量和出版频率、所属学科、作者来源、影响因子、期刊国别和语种,为麻醉科向SCI投稿提供一定的依据,提高SCI投稿成功率。

1查找期刊

SCI收录论文的前提是刊载论文的期刊为SCI源期刊,即只有发表在SCI源期刊上的论文才有可能被SCI收录。本文分析的期刊来源于《ISIWebofKnowledge》的JCR数据库(2012年版)中的anesthesiology麻醉学的30种期刊(统计时间为2014年3月)。

2分析期刊

2.1影响因子分析影响因子不仅仅是一种测度期刊有用性和显示度的指标,而且也是测度期刊学术水平和影响力的重要指标。这是因为在某一学科中,影响因子大的期刊,不仅是该学科研究人员经常翻阅的期刊(体现期刊的有用性和显示度),而且也是人们在论文投稿时经常考虑的重要期刊。一种刊物的影响因子越高,也即其刊载的文献被引用率越高,一方面说明这些文献报道的研究成果影响力大,另一方面也反映该刊物的学术水平高[2]。因此,需根据论文的质量和创新性来选择影响因子适合的期刊投稿,且不可好高鹜远。本文选择影响因子在1.0~3.0间的期刊,经过排除,共筛查出《EURJPAIN》、《MINERVAANESTESIOL》等16种期刊,见表1。

2.2年载文量和出版频率因期刊出版频率不同,每种期刊的年载文量从十几篇到几百篇不等,在期刊选择上一般应选择年载文量在100篇左右,最好为月刊或双月刊的期刊作为拟投稿期刊。如《JNEUROSURGANESTH》,年发文量仅为49篇,出版频率为季刊,大大增加了投稿风险,所以剔除该期刊。经筛选后,满足条件的期刊有10种,见表2。

2.3所属学科分析在各学科SCI源期刊中,有些期刊属于交叉学科,有些期刊属于单一学科,根据论文的内容选择所属范围恰当的期刊,可增加投稿论文的命中率。经分析,这10种期刊共涉及7种学科:ANESTHESIOLOGY(麻醉学)、CLINICALNEUROLOGY(临床神经学)、CRITICALCAREMEDICINE(危重医学)、NEUROSCIENCES(神经科学)、PEDIATRICS、CARDIAC&CARDIOVASCULARSYSTEMS(儿科、心脏和心血管系统)、RESPIRATORYSYSTEM(呼吸系统)、PERIPHERALVASCULARDISEASE(外周血管疾病)。属于麻醉学单一学科的有《JCLINANESTH》、《CURROPINANESTHESIO》、《CANJANESTH》、《ACTAANAESTHSCAND》等四种期刊。

2.4期刊国别和语种分析SCI源期刊出版国主要来自美国和英国,但其它国家也占有一定比例,有部分SCI源期刊的出版语种为非英语语言。选择拟投稿期刊时应首先了解该期刊的出版国及是否是英文期刊,不是英文期刊的最好不要选择作为拟投期刊[3]。经过JCR上的数据分析,发现除《MINERVAANESTESIOL》的语种为MULTI-LANGUAGE(多语种)外,其余9种期刊的语种皆为英语。这十种期刊的出版国有美国、英国、加拿大、澳大利亚、意大利、丹麦等6个国家,详细情况情况见表3。

2.5作者来源分析在不能确定拟投稿期刊在稿件录用时是否具有倾向性时,可以在SCI数据库检索分析统计该期刊中论文作者的国家来源。对期刊的作者来源分析,将有利于提高命中率,掌握拟投稿期刊作者国家的分布情况,选择作者来源国家数量广泛的期刊投稿。一般应选择作者来源国家数量在30个以上,发文国家论文数量所占比例相对均衡,最好选择曾经发表过中国作者论文的期刊投稿。

在SCI数据库中检索每种期刊,通过SCI的分析功能,按"国家/地区"分析检索结果(见表4)。由表4可见,这10种期刊中,期刊作者分布在多个国家,如《CURROPINANESTHESIO》,期刊作者来源于35个国家;《ACTAANAESTHSCAND》期刊作者来源于80个国家。这十种期刊都曾经发表过中国作者的论文。

表4可见,这十种期刊作者的第一来源国与期刊出版国基本吻合。其中有6种期刊的作者第一来源国的比例接近或高于50%,如《JCLINANESTH》的作者第一来源国比例高达61.817%,说明该种期刊偏向于刊载出版国作者的文献,对于非出版国作者的论文刊载比例较小。期刊《EURJPAIN》、《ACTAANAESTHSCAND》、《PEDIATRANESTH》作者第一来源国的比例分别为14.955%、20.747%、27.185%,发文国家论文数量所占比例相对均衡,说明这些期刊对不同国家论文作者具有较高的包容性。

3结果

本文通过JCR确定了30种麻醉科SCI源期刊,通过对30种麻醉科SCI源期刊的影响因子、年载文量和出版频率、所属学科、期刊国别和语种、作者来源等数据进行逐一分析。为增加投稿成功率,兼顾影响因子原则,本文选择影响因子介于1.0~3.0之间,年载文量大于等于100的期刊,经过筛选初步确定10种期刊进行进一步深入分析。继而对这10种期刊的学科、期刊国别和语种、作者来源等进行综合对比,发现《PEDIATRANESTH》、《EURJPAIN》、《ACTAANAESTHSCAND》等三种期刊具有较高的年发文量,分别为170、140、162,且发文国家作者所占比例相对均衡,皆有刊载中国作者论文,中国论文作者排名分别为第11、16、21,这三种期刊比较适合中国作者投稿。

4讨论

通过JCR数据库可以确定某一学科的SCI源期刊,再通过该数据库的期刊信息以及SCI数据库的分析功能,对SCI源期刊的影响因子、年载文量和出版频率、所属学科、期刊国别和语种、作者来源等数据进行分析和筛选,选择适宜中国论文作者投稿的SCI源期刊。期刊影响因子范围的选择至关重要,影响因子的选择需依据论文的质量和创新性,并尊重用户的要求确定范围。在实际工作中,还需根据用户的需求,适当地增减或调整筛查方案,例如:用户的论文类型特殊,则在选择投稿期刊时,还需分析期刊刊载的文献类型范围。

参考文献:

[1]杨丰全,任静.SCI数据库在论文写作及投稿中的应用[J].深图通讯,2007(4):48-51.

[2]孙悦阳,杨华.向SCI源期刊投稿及其注意事项[J].医学信息学杂志,2008,29(5):78-80.

大数据分析论文篇6

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

 

大数据分析论文篇7

科技档案是指在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的图纸、图表、文字材料、计算材料、照片、影片、录像、录音带等科技文件材料。2010年以前,由于信息传播速度、信息量以及计算机技术的普及都落后于今天,全国各地的科技情报研究所都是使用人工的手段从科技档案中收集情报,然后再对数据进行筛选、去重、统计,这种方法既费时又费力。随着互联网的发展,数字档案平台、科技报告系统的兴起以及大数据时代的到来,科技情报研究部门对信息的需求量与日俱增,人工检索数据、筛选数据的方法必将被淘汰,取而代之的是利用算机技术自动地对数据进行检索、处理和分析。

从目前的情况来看,完全用计算机代替科技情报研究人员进行情报分析工作是不现实的,因为很多情报的判读需要科技情报研究人员常年累积的经验,计算机可以做的是在最大限度上用计算机代替人工做重复性的工作。此外,情报领域与计算机领域有一定距离,情报研究人员往往不懂计算机技术,甚至对软件的使用都感到棘手。针对上述实际需求,需要开发一个无监督的系统,该系统可以按照需要自动采集数据,并可以对数据进行去重、分析。

基于以上背景,本文计划在钱学森提出的综合集成研讨方法指导下,基于数字档案平台、科技报告系统等数据库设计建立一套以人为主,数据、信息、知识和智慧综合集成,高度智能化的人机结合智慧情报系统,从系统的物理构成来看,包括三部分:一是由参与情报解读的专家组成的专家体系;二是由为情报工作人员和专家提供各种信息服务的计算机软硬件技术组成的机器体系;三是由各种形式的信息资源组成的知识体系。从情报分析过程来看,该系统包括三部分:一是基于专家体系经验判读的定性情报综合集成系统;二是基于数据采集处理工具的定量情报分析综合集成系统;三是从定性情报到定量情报的综合集成系统。总之,该系统的建设不仅需要建立由不同学科、不同领域专家组成,具有能面对复杂巨系统问题所需要的合理知识结构的专家体系,而且还需要设计开发能够有效处理海量数据的工具,实现信息的高效采集与精确分析。从技术构成分析,归类能力、关联性分析能力、辅助解读能力、报告辅助生成能力是该系统应具备的几大核心能力。

文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿的数据挖掘分析技术,对各数据库的结构化与非结构化文本进行处理,实现对海量信息的数据挖掘,完成数据的关键词输入、引文爬取、数据解析分析、统计。最终形成关于学术专题情报报告雏形。

二、学术专题档案情报快速辅助生成系统功能需求分析与系统设计

大数据时代的数据特征为情报服务过程中数据采集提出了严峻的挑战,档案数据库和科技报告数据库等结构化信息异构、重复,质量参差不齐,时效性不强,使数据整合成为基础数据资源建设的难点;其次是是如何通过大数据时代高度发展的移动互联网技术,充分利用人际网络获得一手数据,并与网络、文献和数据库信息进行整合,也成为大数据环境下数据采集的难点。与此同时,无论何种数据来源,由于数据的价值密度低,数据筛选技术都是关键的技术难题。

本系统通过利用网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术,构建面向大数据的档案数据库数据、科技报告数据库数据、人际网络数据和信息筛选的大数据采集与筛选工具,为情报服务的数据资源建设提供工具。

(一)系统需求分析

1.搜索需求:互联网数据库信息是情报服务的主要数据来源之一,搜索引擎技术的发展为互联网数据的获取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到约10-30%的信息,只能完成情报大概情况的收集,不能满足情报检索中查全率的要求,对于查准率也只能满足部分要求,这种现状对于情报服务来说,是对互联网信息资源的浪费。本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索,完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。

2.大数据筛选:数据库数据具有数据价值密度低的特点,因此,数据的筛选对于情报服务的质量尤为重要。数据来源的广泛性使得大数据难以根据同一标准进行筛选,因而计算机难以独立完成筛选工作。本系统根据研究内容设定采集数据的范围,将采集得到的数据去噪、剔除相似数据后,根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息,力争把以十万计的海量信息压缩到600条以内,同时保存足够的核心信息,并采用人机结合的工作方式,提供专家判读的界面,为数据筛选的准确性提供保障。

3.动态情报跟踪与基于科技主体的社会网络情报需求。搜索引擎完成的是面向互联网数据库数据的静态数据获取工作,然而对于情报服务来说,动态跟踪能够展现情报研究对象的活动轨迹,对于情报分析具有十分重要的价值。根据社会网络理论,完成科技主体(单位和个人)相互关系的表达,从而确定某一主题下各个科技主体的特征,以使我们能从中找到适合进行情报分析判读的行业专家。本系统基于移动网络环境下的情报采集技术,创新情报采集模式,全面采集由情报所所内人员、行业专家、专业情报员,通过科技情报生产的规范化流程、规范化方法,依照科技情报质量控制体系,在情报分析模型方法库和情报分析方法工具包的协助下,完成情报的分析流程。

(二)系统模块设计

本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取,获取有效的网页信息与档案信息,去重、去噪后得到需要的网页信息与档案信息。对数据进行特定的处理,采用特定的算法对获取的数据进行处理分析,生成需要的图表格式并得出结论。具体流程如图1所示。

按照档案情报流程节点的不同,该学术专题情报快速辅助生成系统可以细分为几个大模块:搜索大模块,控制大模块,整理大模块,分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图2所示

1.搜索模块:搜索大模块主要有科技报告系统网页搜索模块和数字档案搜索模块两大模块。网页搜索模块致力于在科技报告系统网络上搜索与关键字相关的网页集合,为后续的操作提供初始的科技报告系统网页信息材料来源。数字档案搜索模块是在制定好的数字档案馆中搜索与关键字相关的档案集合,得到与关键字有密切关系的档案集合,为之后的整理分析等工作提供初始的材料来源。

2.控制大模块:控制大模块主要有两个小模块:内存控制模K和线程控制模块。无论是从网页中获取信息还是从档案库中获取信息,系统在获取信息过程中获取的信息容量比较大,所以需要内存控制模块来高效的非配运行此系统的计算机的内存,以提高系统运行效率。由于要获取的信息内容十分多,因此采用并行技术进行获取信息的操作。

3.整理大模块:整理大模块主要有科技报告系统网页内容整理模块和档案库内容整理模块两大模块。科技报告系统网页内容整理模块只要是对获取到的网页进行去重,去噪等处理,得到干净、整齐的网页内容。档案内容整理模块是对已经获取到的档案集合进行去重,去噪等处理,获取格式整齐的档案内容,以便进行后续工作。

4.分析大模块:分析大模块主要有科技报告系统网页内容分析模块和档案内容分析模块两大模块。科技报告系统网页内容分析模块是对前边已经处理过的网页信息采用分类,对比等特定分析方法对这些内容进行分析,以帮助后边的模块得到想要的结果。档案内容分析模块是针对之前通过搜索,处理得到的整齐的档案信息内容采用特定的分类,对比等分析方法对档案内容进行分析,得到分析的结果。

5.结论生成大模块:结论生成大模块主要有科技报告系统网页生成结论模块和档案生成结论模块两大模块。科技报告系统网页生成结论模块使用通过关键词筛选出的网页信息经整理、分析得出的结果采用表格,图表等方式展现给用户,让用户对结论有一个直观的了解。档案生成模块使用通过关键词帅选出的论文信息经过整理、分析得到的记过采用与网页生成结论模块基本相同的样式,如表格、柱状图、饼图等方式向用户展示该关键词搜索的内容的结果。便于用户进行相关的决策等。

(三)系统架构设计

系统结构共包括元搜索模块、垂直搜索模块、URL调度器、数据存储器、多线程控制器、源码解析器和数据分析模块,其中元搜素模块主要是对科技报告系统网页数据进行检索;垂直搜索模块主要是对档案数据库进行检索。由于网页数据与档案库的格式差异较大,故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上来说,除了信息采集模块外,两个软件的结构基本一致,都是通过上述模块进行相互协调控制。用户在系统运行初始化时对相关参数进行设置,如检索的最大页数、检索的时间间隔等,然后输入关键词,系统结合上述功能模块就可以脱离人工自动对数据进行检索和处理,最终实现无监督的信息采集工作。

系统的基本流程:在传统网络爬虫的基础上进行改进对网页信息进行抽取,将下载下来的数据保存到内存中,与之前的一级链接相同,当内存中的数据超过一个阈值时,将它们输出到本地文件中。

当全部数据抓取下来后,数据被分为网页数据与档案数据,由于档案数据是标准的结构化数据,并且科技档案技术方案的重复率并极低,也不存在大量噪声数据,因此可以通过系统的数据分析模块对档案数据进行分析。

三、学术专题档案情报快速辅助生成系统的功能实现

文章以人工智能领域为例,使用本系统进行实验,验证本系统的可行性和有效性。一是本系统可以实现对档案数据库、科技报告数据库的中文数据采集搜索,可以自动实现对档案、科技报告相关词库的搜索,对相关文献详细信息(包标题、摘要、完成人、完成单位、完成时间、项目名称等)进行搜索采集,对相关文献内高频词汇进行统计分析。二是系统对采集到的数据进行归类、去噪、去重处理,筛选出较具情报价值的信息,运用文献计量学方法对筛选完的数据进行统计分析,形成清晰的档案文献相关信息统计分析表格。三是系统可以用来搜索某学术领域相关机构、相关专家,还可以对机构之间的合作关系、专家之间的合作关系、专家学术研究点之间的关系进行可视化展示。

大数据分析论文篇8

关键字:大数据 情报研究 情报研究技术

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08

1 引言

当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。

大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。

由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。

对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。

2 大数据环境下情报研究的发展趋势

大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。

综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。

2.1 单一领域情报研究转向全领域情报研究

随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。

首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。

其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。

2.2 综合利用多种数据源

综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。

这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。

综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。

2.3 注重新型信息资源的分析

随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。

此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。

2.4 强调情报研究的严谨性

情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。

在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。

2.5 情报研究的智能化

大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。

目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。

3 情报研究中的技术问题

情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。

根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。

3.1 可视化分析

可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。

目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。

将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。

3.2 数据挖掘

广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。

从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。

要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。

3.3 语义处理

语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。

从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。

将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。

4 结语

正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。

参考文献:

[1]Big Data,Big Impact[EB/OL].[2012-09-06]..

[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,

2(4):387-403.

[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.

[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.

[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012

-09-16].http:///fil

es/Sandbox/victor/jigsaw-VAST07.pdf.

[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.

[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.

[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.

[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.

[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images

/studien/proceedings-common-value-management.pdf#page=19.

[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.

推荐期刊