线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

挖掘技术论文8篇

时间:2023-03-16 15:51:19

挖掘技术论文

挖掘技术论文篇1

[关键词]数据挖掘客户关系管理应用步骤

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6.部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

参考文献:

[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002

[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)

[4]顾桂芳何世友:数据挖掘在客户关系管理中的应用研究[J].企业管理,2007,(7)

挖掘技术论文篇2

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

挖掘技术论文篇3

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

挖掘技术论文篇4

执行记录属于软件工程中的挖掘领域,其主要任务是针对执行记录的挖掘主要针对程序执行路径进行分析,进而找出与程序代码所具有的必然联系,以实现软件系统程序与模块代码相结合共同发生作用的目的,对程序的整体起到维护、验证和了解的作用[2]。究其工作的实质,就是以执行路径为线索实现逆向建模,有助于软件工程系统各个环节的理解、维护、跟踪以及验证。

2检测软件漏洞

作为软件工程领域需要协助的软件工程目标之一,针对软件漏洞的检测固然是挖掘数据技术系统中不可或缺的一环。检测的对象和任务主要包括:软件测试的具体项目,对软件系统漏洞库数据信息的收集、转换和清理,信息系统数据的采集与抽取,选择合适的软件系统数据挖掘信息并对其展开验证、整合与训练,对软件数据系统中存在的缺陷漏洞进行整体的分类、定位与具体描述,以及广泛应用于软件测试项目中的各种工程活动。究其最终目的,就是找出软件系统在开发与应用的具体过程中存在的问题、谬误与漏洞,对业已搜索出的问题和漏洞进行及时的矫正与修复。确保软件系统的有效运作与安然运行。

3版本控制信息

版本控制的挖掘属于软件工程领域中的挖掘对象技术之一,这种软件系统的驾驭手段具有与上述两种应用截然不同的独特作用:有效确保软件工程项目编程人员所编辑与制作的档案得到十分有效的管理,进而对系统全局的更新提供稳定的基础与平台。版本控制信息的技能价值看似“默默无闻”,地位实则非常重要,是所有软件工程项目开发必须采用的一门技术,否则任何软件工程项目的开发都无从谈及与运作。这门技术功能经过不断的发展更新,多以应用版本控制系统实施软件开发工作的保护或者管理的方式著称于世。

4开源软件挖掘

开源软件的挖掘,其项目的开发环境优势可谓得天独厚,主要体现在开放性、全局性、动态性三个特征层面上。既然具有别具一格的开放手段与应用方式,所以对该类软件的开发管理,也要采取与与其他传统软件和异类软件截然不同的原则与策略,形成“具体问题具体分析”的思想实践思路。针对其开放性的特征,需要工作人员的频繁流动与变更;针对其动态性的特征,开源项目必须达到优质管理的水平;针对其全局性的特征,有需要开发人员在开发活动与应用软件的过程中保持一个比较完整的记录,以便于广泛的社会网络的生成。

5结语

挖掘技术论文篇5

1.较高的有效性新兴起来的数据挖掘技术的应用时间并不是很长,但是其在经济统计领域的应用受到了良好的效果,其稳定的工作性能,不仅能够对经济统计数据进行分析整理,更能深层次地开发出更多的有用信息,在实际的应用中展现出较高的有效性。

2.综合应用性强数据挖掘技术已经被广泛地应用在统计工作中的多个领域,并且发挥着重要的作用。数据挖掘技术不仅是一种综合应用性强的技术手段,同时又能满足统计数据使用者的特定数据需要。因此,数据挖掘技术能够对经济统计数据进行定向的整理和开发,为数据使用者提供更好的服务。

3.宏观型的数据库有利于数据挖掘技术的应用当前,我国的经济统计大多还是采用传统的经济统计方法,统计收集的数据信息不能形成有机整体,在对数据进行管理过程中,出现了很多问题。因此。经济统计工作需要能够提供数据整理开发的新技术。宏观经济统计数据库,为数据挖掘技术的开展提供了平台。数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更丰富的数据资源。

二、数据挖掘技术的运用

数据挖掘技术的特性决定了其对经济统计数据整理的重要性,经济统计所得到的数据信息要求必须有实用性和真实性,数据挖掘技术的特性正好满足了经济统计工作的需要。数据挖掘的过程主要包括以下四种方法:

1.预处理方法首先,要对统计数据进行预处理。由于经济统计信息在收集过程中存在一些问题,导致收集到的数据存在缺失和模糊现象,这种有缺憾的数据信息不能作为数据挖掘的基础,因此一定要对数据挖掘对象进行事先的处理。其中包括对基础数据中不正确、不真实、不准确和偏差较大的数据进行甄别。

2.集成化处理方法其次,要对统计数据进行集成化处理。经济统计过程中,会出现对多个数据源进行重叠统计的现象,这就要求对数据进行挖掘之前,要有一个统一整理的过程,即数据的集成化处理。数据集成在统计中被广泛的使用。经过数据集成处理的统计信息更加全面,更加真实,可以作为数据挖掘基础信息。

3.转换方法再有,要对统计数据根据需要进行转换。经济统计数据的描述形式比较单一,为了满足数据信息使用者的需要,就要对数据进行转换,使其的表现形式具有泛化或是更加规范。这里所说的泛化指的是利用更深层次和更加抽象的定义来代替原有的低层数据。

4.决策树方法除却上述四种处理方法外,还有决策树方法,指的是对庞杂的经济数据进行分类,把有利用价值的统计数据提炼出来,这种数据挖掘形式能够对分析对象进行体现,并能快速的对信息进行分类处理,能够解决在经济统计过程中出现的各种问题。

三、结语

挖掘技术论文篇6

电子商务既包括了低层次的电子贸易等,还包括了利用Internet网络开展的贸易活动,在多个环节中实现。电子商务的发展极大地改变了销售商和顾客之间的关系,在纺织业电子商务采用Web数据挖掘主要包括以下几点作用。电子商务进行Web数据挖掘的数据源主要包括查询数据、Web页面、在线市场数据等。服务器数据主要是指用户在访问电子商务网站中所产生的各种信息,如服务器Web日志文件。查询数据通过搜索引擎产生的查询数据,是一种比较典型的数据。服务器数据是网络信息的中转站,服务器数据一般具有防火墙功能,是网络信息的中转站,采用缓存功能,能够大大减少服务器的网络流量,加快运行速度。任何一个电子商务网站在Web数据挖掘过程开始之前需要进行数据挖掘,包括数据的准备、挖掘操作以及解释过程等。Web数据挖掘应用到纺织业电子商务中,能够帮助企业更好的掌握生产状态,更加快速的提出企业的销售信息,准确把握市场销售的变化,进而提高纺织企业对市场的应对能力,也能提高企业对生产的控制和管理能力,最大程度利用人力资源和物理资源,提高经济效益。客户关系管理是一种以客户为中心的经营策略,指导企业的开发发展和销售,提高企业的竞争能力,采用Web数据挖掘技术能够最大限度的利用客户资源,对客户进行分类,寻找潜在的价值,加强纺织业客户的管理工作。企业的信用状况将会严重影响企业的发展,利用Web数据挖掘技术能够跟踪调查企业的经营情况,为保证体系提供数据资料。客户在选择任何一种销售商并没有太大差别,企业本身想要留住客户,就需要想办法让客户驻留更长的时间,想要根据客户的习惯来设计,就需要了解客户的兴趣和需求,动态调整页面,满足用户的需求,挖掘客户访问信息,进而了解客户的需求。根据序列发现客户浏览行为的信息,明白客户的需求,根据顾客的需求来设计别出心载的界面,增加客户的驻留时间。Web数据挖掘在应用中能够帮助纺织企业更好的挖掘潜在的信息,商家可以根据潜在客户的需求和愿望来进行分类,正确的分类新客户,判断潜在的新客户,强化显示客户的需求,保证企业获得更高的客户收益。纺织业电子商务在应用Web数据挖掘中能够改进Web站点的设计,提高站点的效率。纺织业电子商务Web数据挖掘的使用不在依照专家来进行设计,而是根据客户的意愿来进行设计,利用关联规则来进行推理,发现潜在的规律,为客户的下次访问提供帮助。纺织业电子商务应用Web数据挖掘能够改变营销机制,在一般企业的宣传中可以看到,花费大量的资金来进行宣传,所起到的效果不是很好,若是通过电子产品的的方式就能得到更好的营销效果。

2、纺织业电子商务面向Web挖掘的新型架构

2.1Web数据挖掘的流程

采用数据挖掘技术流程为特征信息的识别制定目标问题的描述关联分析聚类决策树等。纺织业电子商务网络在挖掘数据中首先需要记录调库眼特征,包括购买历史、广告历史等信息。目标制定流程是寻找不同的隐含模式,关联分析主要是发现顾客喜爱的商品组合,聚类则是找到能够提供访问者特征的报告,决策树就是流程图,采用最少的步骤解决问题。先记录访问者的条款特征,当访问者访问网站时能够逐渐积累访问者的数据,交互信息包括广告历史等。在网上进行交易的最大优点在于能够有效的评估访问者的反应,采用数据挖掘技术能够得到更好的效果。电子商务网站想要将顾客购买信息这些信息集中在一起,容易出现浏览中出现遗漏的情况,在流程设计中采用聚类,能够确定网站的数据,向不同的访问者提供相应的报告。

2.2纺织业电子商务面向Web挖掘的新型架构

2.2.1Web挖掘关键技术

Web服务的体系结构主要动作构成包括服务注册中心、服务请求者、服务提供者等,服务提供者就是一种可通过网络地址访问的实体,服务请求者是一个应用程序的服务,服务注册中心是联系服务提供者和请求者。Web服务协议可以分为网络传输层、消息层、模型层等。网络传输层是Web服务协议栈的基础,可以采用任何格式,要求具有安全性、性能以及可靠性。数据表示层主要是提供数据描述手段,标准数据建模语言主要是XML。基于XML的消息层提供一个松散的、分布环境,是在分布式的环境中交换信息的轻量级协议。服务描述层主要是提供认识机制,服务分线层在实现中创建一个独立的开放框架,发现Web服务的功能,Web服务工作流语言是协议栈顶层的标准语言。Web服务的关键技术主要包括SOAP协议、WSDL描述方式等,SOAP协议是分布式环境中交换信息的简单协议,能够与现有通信技术最大程度地兼容,独立于应用程度对象模型、语言和运行平台等,本身不定义任何应用语义,一个SOAP信息是一个XML文档,AOAP规范主要由信封、编码规则、绑定等组成,AOAP信封定义整体的消息表示框架。移动Agent技术应用到电子商务中有非常大的优势,移动Agent技术具有响应性、自主性以及主动性等特征,应用到电子商务系统中能够减少电子商务活动的通信代价,减少网上原始数据的流量。电子商务中的教育要求包括访问流程信息,要求系统对环境的变化做出实时的反应,由中央处理器将移动Agent派遣到系统局部点激活消除隐患。

2.2.2Web挖掘平台设计

产品的功能实现在Web数据挖掘平台的设计中至关重要,要求数据挖掘平台具有动态、可伸缩性,能够根据市场需求的变化而随之变化,还要求具有足够的稳定性和可靠性。在进行架构设计时,需要注意架构的合理性、简洁性和可扩展性。根据数据挖掘、Web服务和相关结束,设计数据挖掘架构,见图1所示,Web服务的组合由Agent负责,待返回结果后,能够有效解决数据的分布性、可扩展性等,负责服务之间的通信,降低网络通信的负担,减少相应时间,实现挖掘算法库的动态管理。在挖掘平台的设计中,各种挖掘算法均采用采用Web服务封装,实现挖掘系统与算法的耦合。各个Agent模块之间相互独立。架构逻辑层主要分为4层,数据存储层为最底层,数据处理层主要包括Web服务的架构和数据挖掘的是吸纳,在Agent环境中将XML文件转换,将查询结果再打包成XML文档,形成模式集合最后提供给客户信息,把访问层和逻辑层设计为数据访问的功能封装。客户端的设计主要包括胖客户端和瘦客户端,大部分的系统功能集中在胖客户端。典型的Agent结构应用到Web服务,其他的Agent搜寻和定位这些系统。移动Agent应用到Web数据挖掘中能够弥补很多的不足。在Web挖掘架构设计中,独立出了搜索引擎,使得搜索引擎更加具有灵活性。传统的数据挖掘引擎主要包括算法调用模块和算法管理模块等,算法分布Agent子模块股则命令的传输,向UDDI请求,删除已有的挖掘算法等功能,UDDI服务器与Agent相互交换信息生成算法的WSDL文档,将信息保存到UDDI服务器上,完成任务。

3、Web挖掘原型系统的实现

挖掘技术论文篇7

[关键词]文本挖掘人 文社科 技术应用

[分类号]TP391

[文本挖掘概述

文本挖掘(text mining)是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是:文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。

一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。

文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年),且呈逐年上升的趋势。从WoK学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%。

由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显,文献中包含的隐性内容更多,能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索,分析发现文本挖掘技术在人文社科研究中的应用特点,以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。

2、信息抽取应用

信息抽取(information extraction)是文本挖掘的前-端技术,它从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征,因此通过机器学习等方法可以从中发现知识、挖掘知识,为科学研究提供有力的支持。

信息抽取作为一门独立的内容处理技术,其本身在商业、情报分析、数字图书馆等领域有着广泛的应用,已有较多专门的信息抽取系统投入商用。在人文社科研究中,信息抽取常常作为文本挖掘的一个重要步骤,作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型,均把信息抽取作为文本挖掘的一个重要组成部分,是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用,而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。

2.1 改善信息检索

传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识,并通过eAQUA门户免费提供这些知识。在文献中,英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会(JISC)资助的ASSERT E’’项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。

2.2 辅助知识发现

挖掘技术论文篇8

【关键词】 计算机 数据挖掘技术 开发

引言:计算机数据挖掘技术是基于计算机原有的功能基础之上,融入了一些统计学理论,使人们可以利用数据挖掘技术在众多的计算机系统内部的信息中抓取自己需要的信息和数据。计算机数据挖掘技术的出现极大的促进了社会整体的进步,引领了社会各个领域内的数据量潮流,人们要想在无限的数据中采集有用信息,就必须深入计算机数据挖掘技术的开发研究。

一、计算机数据挖掘技术开发流程

1.1明确数据挖掘目的

由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技术数据算法,如果目的不明很容易造成最终开发结果的偏差[1]。

1.2数据选择和预处理

明确数据挖掘目标、数据库后还要对所持有的数据进行选择和预处理,数据选择是要将数据中的部分信息纳入数据挖掘研究范围内,预处理是将这些数据中的错误信息进行删除和修正,确保列下有用信息。

1.3数据挖掘

数据挖掘过程中要有两个步骤,其一是根据挖掘目标确定接下来要利用的开发技术和采用的算法,其二是在确定了挖掘技术和数据算法后构建出数学模型,以此来推动挖掘技术的开发。

1.4评估结果

评估结果的最大作用就是对开发出的数据挖掘结果进行科学评估,对数据挖掘技术的开发成果进行检测和验证。如果数据挖掘结果不能够达到数据挖掘开发目的要求,就要及时进行修正,如果数据开发结果符合数据开发目的要求,那么就可以将其投入到实践应用之中[2]。

二、计算机数据挖掘技术开发

1、可视化技术开发。要想得到有效的信息,就需要从计算机系统中获得的信息入手,但是当前的网络信息中存在不少的隐性信息,这些信息的获得就要依靠计算机数据挖掘技术。采用计算机挖掘技术可以有效的抓取隐性信息的某些特征,当利用散点图的方式将这些隐性信息表现出来。所以可视化技术是计算机数据挖掘技术开发项目中的一个重点。

2、联机分析处理。网络是复杂的,其中的网络信息和数据更是十分的庞杂,要想快速、准确的抓取到自己想要的信息,需要依靠联机分析出不同地域和时段的多维数据,联机分析处理方式需要依靠用户的配合。在处理多维数据时,需要所有计算机用户自行的使用或者筛选出分析算法,利用这些分析算法对数据做处理,这样对探索数据也有巨大的推动作用。

3、决策树。计算机数据挖掘技术的开发中需要对决策树进行规则化建立,决策树是一项重要的开发项目,因为决策树的作用是发挥预测和分类的功能,对所处理的数据信息进行具体的预测和分类。目前开发的决策树算法已经有很多种,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具备连续性属性,还可以对数据做出具体的分类,SPRINT算法与SLIQ算法有同样的功能属性,并且这两种算法可以通过大型训练集对决策时做出归纳[3]。

4、计算机神经网络。计算机数据挖掘技术在开发之中借助了医学神经系统的研究结果,将人体神经元研究脉络通过技术处理形成了计算机网络神经的研究,并且经过一系列的深入探索,目前已经取得了重大的成果。计算机中研发出的神经网络是安全输入、输出和处理单元三种类型进行规划的,这三个层面代表了计算机神经网络系统,当前的开发结果中显示,可以利用计算机神经网络技术实现数据的调整、计算和整理。

5、遗传算法。计算机数据挖掘技术的开发中借鉴了许多其他学科领域中的研究方向和理论,在自然学科中,生物基因可以通过遗传中的不同变化促进后代的自我优化,利用这种思想理论,在计算机数据挖掘技术的开发中也可以通过对不同模型进行组合、演变来创新开发出新的数据算法。

结束语:计算机数据挖掘技术属于当前社会中最重要的分析工具之一,数据挖掘技术已经被各个领域广泛的应用,并且其功能得到验证,极大的促进了社会行业的快速发展。随着科技水平的日益提升,相信计算机数据挖掘技术将会得到更多方面的创新研究和开发,给社会带来更大的促进作用。

参 考 文 献

[1]夏天维. 计算机数据挖掘技术的开发及其应用探究[A]. 《Q策与信息》杂志社、北京大学经济管理学院.“决策论坛――管理科学与工程研究学术研讨会”论文集(下)[C].《决策与信息》杂志社、北京大学经济管理学院:,2016:1.

推荐范文
推荐期刊