线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据挖掘论文8篇

时间:2023-03-17 18:01:01

数据挖掘论文

数据挖掘论文篇1

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

数据挖掘论文篇2

在上述系统设计的基础之上,我们提出了网店客户购买数据挖掘系统的模型,该模型由三个层次组成,其逻辑架构如图一所示。

2、系统设计与实现

2.1系统开发与运行环境硬件环境:CPUIntelI3380M/RAM2G/硬盘320G软件配置:操作系统:Windows7SP1开发工具:2005/VisualC#数据库管理系统:MSSQLServer2008辅助软件:SPSSClementine11.1;SQLServer2008AnalysisServices(SSAS)

2.2主要技术与系统实现通过对上述对客户购买数据挖掘系统模型的分析可知,该系统主要由用户接口模块、数据清洗模块、数据格式转换模块、数据库生成模块和数据挖掘引擎模块等组成。1)用户接口模块本系统最终目的还是为为客户的决策提供支持,因此友好的界面设计是用户与系统交互的基础。简洁而易于理解的界面有利于提高用户对系统的使用效率。2)数据预处理模块客户访问数据进入数据预处理模块进行清洗,去除无关的信息,剥离出对数据挖掘有价值的数据。数据预处理模块对原始访问数据进行分析,将用户购买数据记录逐条的分割成十个字段,分别为:u_id(访问者编号),u_date(到访日期),u_time(到访时间),u_orderid(订单编号),u_product(客户购买的商品),u_bowser(使用的浏览器类型),page(首次到访页面),place(客户所在地区),payment(支付方式),logistic(物流方式),同时删除访问数据中与以上字段不相干的数据。然后将经过预处理的数据存入中间文件。3)XML转换模块该模块程序使用.NET的相关的方法编写,主要功能将预处理过的客户购买数据转换成标准化XML格式的数据文件进行存储。该程序的主要实现原理是对经过预处理的中间文件中的数据记录逐个分割并存入数组,然后将数组的内容按照XML的格式写入文件,完成转换。4)数据库导入模块利用.NET的相关方法并结合数据库管理工具建立支持数据挖掘的客户购买数据库,编写相关程序将已经转换成XML格式的客户访问数据逐条的导入到数据库并形成日志数据表方便进行后续的数据挖掘。5)数据挖掘引擎模块数据挖掘引擎是实现客户购买数据挖掘系统的实现关键。优秀的数据挖掘算法不仅可以使数据挖掘的结果更加准确,也可以提高数据挖掘的效率。本系统主要用到的算法是该模块利用数据挖掘算法对数据进行挖掘,主要包括算法的优化、日志数据表的删除操作以及挖掘结果集的保存与删除操作等。这里主要用到的算法是K-Means算法。主要是利用该算法发现最相似的客户聚类,通过对聚类的分析来得出网店众多的顾客一般的购买行为模式,从而可以适当地调整网站营销的策略中的来提高网络营销的效果,进而增加销售量。

3、小结

数据挖掘论文篇3

1.1经穴效应特异性规律研究

主要采用关联规则与频次分析相结合的数据挖掘方法,关联规则旨在提示处方中存在的两个或两个以上腧穴之间的配伍形式,频次分析能够提供针灸治疗某一疾病选用的腧穴及其频繁程度。罗玲等在全面采集古代针灸治疗中风文献基础上,重点进行了选穴的经络症状关联分析,发现针刺治疗中风半身不遂使用腧穴频次最多的为曲池、肩等手阳明经穴;肩、曲池、足三里、百会、风池配伍是最常用处方;多选用足少阳经和手足阳明经穴位。针刺治疗中风不省人事使用腧穴频次最多的为督脉百会穴、心包经中冲穴;风池、百会、曲池配伍或大椎、百会、风池配伍是最常用处方;经脉多选用督脉和足少阳、手阳明等阳经穴位。以上表明针灸治疗中风遵循了辨证循经取穴的处方规律。何冬凤等在全面采集现代针灸治疗心绞痛临床文献基础上,重点进行了选穴的经络部位关联分析。结果发现,心绞痛选穴分布在心包经、膀胱经、任脉、心经最多;选穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包经和心经,背部用穴近95%分布于膀胱经,胸部用穴全分布于任脉和心经。以上表明针灸治疗心绞痛遵循了辨位循经取穴的处方规律。数据挖掘结果证实了古代、现代取穴规律和特点与针灸临床理论的一般规律和特点是基本相符的。经络辨证提示了经穴效应的循经性,特定穴的选用提示了经气会聚状态是腧穴发挥效应特异性的关键。

1.2腧穴运用规律的研究

1)神经系统疾病:赵凌等收录了从先秦至清末的偏头痛针灸专著,采用多层关联规则挖掘算法,计算腧穴项集的支持度和置信度,发现手足少阳经脉的穴位丝竹空、风池、率谷、颔厌、头临泣出现频次最高,偏头痛处方配伍中以合谷一风池出现的频次最高,少阳经的交会穴选用最多。杨洁等发现针灸治疗贝尔面瘫中,手足阳明经穴选用最多,重视局部穴位,配合远端选穴,地仓穴为使用频次最多经穴,交会穴、五输穴、下合穴等特定穴运用广泛。吴粮葶等挖掘针灸治疗中风后遗症的现代文献,表明针灸治疗中风后遗症选穴以循经为基础,首选阳经腧穴,分布主要在四肢,阳明经与少阳经的配伍关系最为常用,特定穴为选穴的主体,特别重视交会穴及肘膝关节以下的特定穴。李旗等挖掘出针刺治疗格林巴利综合征所选腧穴以足三里、合谷、曲池、阳陵泉、外关、三阴交使用频率最高,经络则以手足阳明经最为常用。CongMen等以不同针刺手法刺激小鼠足三里,构筑神经元混沌放电的复杂网络来刻画神经元放电时间序列的时变特性。

2)消化系统疾病:任玉兰等通过多维、多层的关联规则分析针刺治疗功能性消化不良的古文献,发现足三里、中脘、脾俞、胃俞、内关是治疗FD最常用的主要腧穴,足三里与中脘相配是最主要穴位组配方式;取穴以循经为基础,主要集中在任脉、膀胱经、脾胃经上;所选腧穴以特定穴为主体,遵循局部与远端取穴相结合原则。张勇等以古文献中治疗鼓胀的经穴为原始数据,运用频数统计及关联规则算法,统计出古代治疗鼓胀最常用经穴为足三里、水分、气海等,通过2次priori关联结果,最终确认组穴1(复溜,中风)和组穴2(复溜,脾俞)在临床应用中具有强关联性。郑华斌等发现在治疗肠易激综合征中,特定穴的使用广泛,其中以足三里为最,其次为天枢、上巨虚、中脘等,脏腑辨证取穴为针刺治疗肠易激综合征的重要原则,以足阳明胃经的足三里和天枢为主。

3)心血管系统疾病:何冬凤等收集从先秦至清末有关胸痹的文献,挖掘结果为历代针灸治疗胸痹以心包经选用频次最高,阴经使用最为频繁,特定穴的选用占有绝对优势,如五输穴原穴络穴等,体现了循经取穴原则。高丽美通过频次分析及关联规则算法挖掘现代穴位贴敷治疗心绞痛文献,结果表明心俞、膻中、内关、厥阴俞使用频次最多,腧穴选用以特定穴为主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴为主;以足太阳膀胱经、任脉、手厥阴心包经选用频次较高。

4)其他系统疾病:王洪彬等借鉴文献计量学及数据挖掘的相关方法,对针灸治疗更年期综合征的常用腧穴及经络进行描述性统计。发现现代治疗女性更年期综合征所选取的穴位中以三阴交、肾俞、关元、足三里使用频率最高,膀胱经、任脉、脾经腧穴应用最为广泛。王静等发现源于149篇文献的186条数据元素组成的阿片类药依赖针灸治疗数据库中,用穴频次居于前五的经穴足三里、三阴交、内关、合谷和神门构成了穴—穴,症—穴,研究对象—穴,—穴和戒毒分期—穴等关联规则中的穴位主体。

1.3刺灸方法的应用规律研究

贾春生等提出建立刺灸法文献数据库并设计文献数据应用平台,在此基础上分析数据资料,建立刺灸法数据挖掘模型。此后,各学者运用数据挖掘方法对穴位注射、火针、穴位敷贴、穴位埋线、刺络放血等刺灸法进行了特异性规律及特点的研究。刺灸法挖掘技术的应用中,频次分析最为常用,能够提供各类刺灸法治疗不同疾病的频繁程度,筛选其治疗的优势病种。张选平等发现穴位埋线疗法主要优势病种是内科的胃脘痛、肥胖病、痫证、哮喘、腹痛、面瘫、便秘;外科的腰腿痛;皮肤科的牛皮癣和五官科的重睑术。刘新等总结出放血针具共涉及9种,以三棱针使用频次最高,将放血量人为分为6个等级,其中放血量为少许(少于0.1mL)的出现频次最高,为401次。许晓康等发现水针疗法在内科疾病治疗中出现频次最高,其次为外科疾病,相对于其他疾病,呃逆出现频次最高。

1.4腧穴疾病谱的研究

吴粮葶等通过规范病症、腧穴名称,统计中风后遗症所属病症的针灸病症谱及总结针灸治疗中风后遗症的腧穴谱,结果显示针灸病症谱分布呈偏向性,腧穴谱遍布十四经脉,首选阳经腧穴,常用腧穴以阳明少阳经穴为主。邢晶晶等通过文献比例、疾病比例对内关及其常见配伍的针刺病谱进行分析,总结出内关针刺病谱主要分布于脾胃系和心系;单穴内关针刺病谱中冠心病文献比例最高;内关配伍足三里针刺病谱中呃逆文献比例最高;内关配伍三阴交针刺病谱中焦虑抑郁文献比例较高。黄宗雄等通过对清代及清以前昆仑穴相关文献的整理,挖掘得出:昆仑单穴主治病证33种,筛选出2种优势病证;配伍主治病证45种,筛选出19种优势病证及其高频配伍处方。陈文修等统计出百会单穴主治病证73种,筛选出22种优势病证;配伍主治病证106种,筛选出21种优势病证及其高频配伍处方。

1.5名老中医经验挖掘

张华等对田从豁教授临床病历资料进行整理,发现田从豁教授临床应用穴方共19个,阴交、肓俞、水分配伍使用频次最多。陈裕收集当代名中医针灸治疗偏头痛医案247篇,总结出临床与肝阳上亢型关联密切的是足少阳胆经,血瘀阻络型是手少阳三焦经,风邪上扰型是足太阳膀胱经,气血不足型是足阳明胃经。并且,根据关联规则挖掘提出的基本配穴规律与中医经络理论相契合。

1.6针灸临床决策支持系统构建

针灸临床决策支持系统对于实现针灸临床决策模式的转变有重大意义,基于数据挖掘方法,各学者在此方向进行了有益的探索。任玉兰等提出建立疾病症状、证候症状关系的样本数据库、概率数学模型;再通过遗传算法进行针灸治疗最优方案的选择,构建具有人工智能特征的针灸临床循证诊疗决策辅助支持平台。王佑林等利用复杂网络的K核心思想并改进来寻找针灸治疗疾病所用穴位的主穴信息,使其更好地适应中医决策系统并提供支持。李云松等发现在决策系统中,使用一元字串和二元字串的特征更适合腧穴处方的自动生成,提出了一种基于K近邻方法的腧穴处方自动生成算法,通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。胡绿慧等提出使用Weka平台进行编程,分析穴位的支持度与置信度,找出适用于针灸临床方案决策研究的最好方法,用以指导临床医生的方案决策。

2分析与展望

2.1数据挖掘结果能够与传统的中医学理论相契

合并提供新知《席弘赋》云:“凡欲行针须审穴。”可见临证选穴及配伍的重要性。查阅近几年针灸数据挖掘的结果,不难发现,针灸处方的配伍仍大量选用“原络配穴”“俞募配穴”“八脉交会配穴”“合募配穴”“远近配穴”等传统配穴方法,遵循着“循经取穴”的规则,体现了“经脉所过,主治所及”“腧穴所在,主治所及”的规律。数据挖掘在验证传统的中医学理论的同时,还能在海量的文献中发掘出新知,如赵凌等挖掘偏头痛文献时即发现古代针灸治疗该病多采用同名经的配穴方法,发生疾病时即可在相联系的手足同名经的相应部位针刺;赵华等挖掘田从豁教授治疗痹症经验的结果提示上肢疼痛与寒凝、血瘀相关,风寒痹阻与下肢发凉相关。这些新的治疗方法、不易发现的疾病、证候、症状之间的联系,通过数据挖掘为临床提供了新的思路与治疗模式。

2.2数据挖掘在针灸领域存在的不足及展望

针灸数据挖掘起步较晚,不同于中医药数据挖掘文献量大、方法选用较多,针灸数据挖掘文献量较少,且仍以关联规则及频次分析为主要挖掘方法。对针灸选方用穴的规律进行关联程度的分析,虽然能够提供腧穴的使用频率及处方的关联度,但此方法对针灸核心处方及配伍的深层分析如增效、减效等却无能为力。单一的处方关联分析也制约着针灸数据挖掘的进一步发展,其在生物学机制、脑功能分析等的应用基本为空白。而复杂网络分析却在此方面提供了新的可能性。复杂网络方法是通过穴位、疾病、证型等作为基础节点,构筑复杂网络,通过幂律分析、小团体分析、中心性分析等深入分析针灸处方特色的一种数据挖掘方法。可以提炼出核心处方,通过加权与无权的穴位疾病二分网络从宏观及动态的角度揭示腧穴配伍规律。亦可进一步以生物学中蛋白、基因或脑影像学数据作为节点,通过节点间的拓扑网络,深入分析针灸在生物学及脑影像学领域的作用机制。另外,数据挖掘与仿真工程的结合,可以在针刺手法的测定、针灸临床决策系统中发挥更重要的作用。

数据挖掘论文篇4

针对Hadoop平台数据挖掘技术的实现,我们可以具体的进行以下的设计:

首先,选一个合适的编程模型,具体来讲,可以采用MapReduce的编程模型,这是一种相对简单的编程模型,在海量数据的计算处理方面有很大的应用。同时MapReduce具有很大的优点,比如:编程简单、易于扩展、容错性比较好等。MapReduce能够将混乱庞大的的数据系统划分为两个阶段,即:Map和Reduce阶段,而且在处理过程中只需要移动计算的方式即可,利用拥有众多优点的MapReduce编程模型作为设计Hadoop平台的载体,是非常有前途的选择。

其次,根据市场需求来设计所需要的前台模块。如今市场上无论各行各业竞争相对都比较激烈,尤其是在如今计算机技术的飞速发展,各大高校计算机人才的扩招,国家提倡高新技术产业发展的大背景下,计算机行业的竞争也是越来越激烈,而想要在日益激烈的市场竞争中争得一席之地,必须把握市场规律,掌握市场技巧,要是铲平有销路,则必须以客户需求为导向,从客户需求出发,设计出满足客户需求的产品。因此在设计平台的时候必须先进行用户需求分析,在真正了解了客户需求的基础上,再进行相关软件的开发。

最后,进行Hadoop平台具体的设计。就总体而言,在设计基于Hadoop平台的数据挖掘系统的时候可以采用自上而下分层的思维模式,利用上层的系统来调用下层的系统。并且依前段所言,要根据用户的具体需求来分层设计,且设计的各层之间的相互独立的,通过调用来实现数据间的传输与通信,之所以采用这种模式是因为这种模式具有很好的扩展性。

在设计基于Hadoop平台的数据挖掘系统时,主要包括:交互层、业务应用层、数据挖掘层三个部分,具体来讲:交互层主要的职责是完成用户与系统之间信息的传递,可以称为其交流的窗口,交互层能够提供清晰形象的图像,利用直观的图像信息将内容呈献给用户。业务应用层主要进行调度、处理、控制用户层的业务,通过调用数据挖掘算法层来进行用户层业务的处理。数据挖掘层作为整个系统的核心,利用并行的方式完成其任务,最后把最终结果返回到业务应用层中。

二、总结

数据挖掘论文篇5

随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。

2数据挖掘的常用技术

机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。

1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。

2)人工神经元网络(ANN),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。

3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。

4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。3数据挖掘技术在用户知识获取中的应用

网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。

3.1用户知识概述

用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。

3.2用户知识获取方法

用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。

3.2.1用户知识的关联分析对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目A和B的顾客中有95%的人又购买了C和D”。这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排,进行有针对性的市场营销。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。

3.2.2组合分析法由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。

3.2.3分类填表法用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。

3.2.4智能方法现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。

利用智能(IntelligentAgent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息(InformationAgent),信息将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。利用用户在浏览器上存储的书签(Bookmark)获得用户信息需求的方法属于“监视用户”类。在Bookmark中存储的信息往往是用户最关心的,需要记录下来以便以后再读。用户还可以对Bookmark进行多级目录管理,不同的目录反映其不同的兴趣。相对浏览历史记录而言,Bookmark对考查用户的信息需求更有价值。如果说浏览历史只是一种对上网情况的“自然”记录的话,那么Bookmark却是用户对历史记录进行比较、筛选后的结果,是用户眼中的网址精华,因而能更有效、更准确地反映用户的需求,而且它的组织性要比浏览历史好得多,更便于进行有效的分析。Bookmark系统采用HTTP协议实现信息的自动搜集。系统通过监测用户信息记录获得信息需求,信息分类器对搜索来的信息进行自动分类,装入信息数据库;信息过滤器根据用户提出的信息推荐请求,对数据库中的信息进行过滤并将合适的信息提交给用户;信息评价器根据用户对推荐信息作出的评价对系统进行优化。运行结果表明Bookmark系统具有良好的信息记录、推荐和共享功能。

4结束语

数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。

【参考文献】

1张玉峰.智能情报系统.武汉:武汉大学出版社,1991

2冯萍,宣慧玉.数据挖掘技术及其在营销中的应用.北京轻工业学院学报,2001(1)

3郝先臣等.数据挖掘工具和应用中的问题.东北大学学报(自然科学版),2001(2)

数据挖掘论文篇6

[关键词]数据挖掘客户关系管理应用步骤

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6.部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

参考文献:

[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002

[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)

[4]顾桂芳何世友:数据挖掘在客户关系管理中的应用研究[J].企业管理,2007,(7)

数据挖掘论文篇7

但是现有电子商务多数局限于PC、Pad等终端。基于电视的购物节目缺乏品牌、可信性,传统的遥控器输入也难以满足电子商务的交互要求。电视机是我国千万家庭中最为普及的家庭信息交互智能终端产品之一,集公共传播、信息服务、文化娱乐、交流互动于一体。因此,新型电视电子商务融合传统的电视购物和互联网模式,通过多屏互动、电视映像触控彻底改变电视的操控方式,结合数据挖掘、行为分析技术,将带来电视商务的蓬勃发展,弥补相关领域空白。

2技术方案

2.1电视商城前端管理系统功能模块

前端管理系统软件架构图如图2所示。电视商城前端管理系统由客户管理、栏目及商品信息管理、电视数据同步管理、电视数据交互、对账管理、支付管理、用户管理、日志管理等功能模块组成。客户管理模块主要包含电视商城用户的注册、登录、收藏等一系列客户行为的管理;栏目及商品信息管理模块主要为电视上商品及栏目提供统一格式的一系列的后台数据。电视的栏目主要是通过时间、频道号、节目号做关联;电视数据同步管理模块主要是指后台同步电商数据的一系列管理。主要是指后台同步电商数据的一系列管理;电视数据交互模块主要是指与电商数据接互的后台接口的处理;对账管理模块主要是指与电商的一个订单对账管理,包含支付情况的对账;支付管理对接第三方支付平台,如支付宝等;系统日志管理模块主要是指后台日志系统的增删改查操作,以便系统用户跟踪问题。

2.2多屏互动、电视映像触控

电视映像触控技术彻底丢掉了繁琐输入工具,是革命性、颠覆性的技术创新,为电视设备提供了简单的操作,用户可以像操控手机一样操控电视,解决了长期以来久攻不克的电视输入难题。行业分析者认为将会在未来几年内有上万亿的市场前景。用户可以通过手机或Pad操控大屏电视、搜索视频、缩放网页、拖动图片、玩转重力游戏,带给你前所未有的电视体验,或通过手机或Pad在家里的任何地方观看电视实时播放的内容,畅想多屏互动的乐趣。通过高速Wi-Fi连接,只需要各设备在同一个局域网。实现了手机、Pad、电视“零延时”同步,精彩多屏看,真正实现“大屏映小屏、小屏控大屏”。当机顶盒接收到直播Server的数据后会将EPG数据保存,当手机、Pad请求的视频播放状态信息时,机顶盒会通过Wi-Fi网络将EPG信息发送给手机、Pad。手机、Pad将直播视频播放的状态信息发送给前端服务平台,前端服务平台每天会定时请求直播Server来获取和解析EPG信息的详细内容,当接收到手机、Pad视频播放信息时,则会自动匹配相关的program内容,并将匹配到的商品信息等通过后台的编辑人员编辑加工入库后传送给电视商城系统。电视商城系统接收到前端服务平台关联的商品信息后,会返回商品的详情、购买情况等信息,然后由前端服务平台将数据打包传送给手机、Pad,此时用户在移动终端已经完全可以浏览到与直播相关联的商品信息并与电视商城系统平台之间进行交互,完成商品购买。

2.3数据挖掘和精准推送

数据挖掘和精准推送流程图。当用户开启电视商城系统平台的服务客户端观看直播时,会发起关联请求,此时机顶盒会将用户所观看的直播节目和当前的时间记录下来发送给服务端请求关联商品界面及关联的内容,初步请求按照channelname+time查找关联界面,如果找到则放回固定的Link_epg_gues_goods中,如果不存在则只按照channelname查找关联界面,若channelname存在,则返回关联频道的link_epg_gues_goods,如果不存在,则返回通用的关联商品界面Link_epg_home_goods。在服务端接收到请求消息后会在服务端统计数据并进行分析用户的行为,最终返回关联商品界面,供用户购买。

3结论

数据挖掘论文篇8

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

推荐期刊
  • 数据
    刊号:11-5323/C
    级别:省级期刊
  • 大数据
    刊号:10-1321/G2
    级别:统计源期刊
  • 大数据时代
    刊号:52-1163/G2
    级别:省级期刊
  • 数据通信
    刊号:11-2841/TP
    级别:部级期刊