线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据挖掘技术研究8篇

时间:2023-01-14 09:17:20

数据挖掘技术研究

数据挖掘技术研究篇1

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术研究篇2

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术研究篇3

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(data mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(svm)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、rbf神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘技术研究篇4

关键词:多层次技术;XML数据挖掘;Web数据挖掘;研究

0引言

数据挖掘就是从大量的信息数据中发现潜在的规律性内容,进而对数据应用的质量问题进行解决,实现对数据的充分利用。在互联网发展支持下的数据挖掘技术得到了快速的发展,特别是以结构化数据为主的数据挖掘技术。数据挖掘技术被广泛地应用到各个领域,并获得了好的效果。但这种结构化的数据挖掘技术无法对Web数据挖掘的特性进行处理,Web上的HTML文档格式也不规范,导致没有充分挖掘和利用有价值的知识。由此,如何优化传统数据挖掘技术,实现其和Web的结合成为数据挖掘技术研究领域关注的热点。而XML的出现,弥补了Web的不足,成为现阶段互联网数据组织和交换的标准,并逐渐出现在Web上。文章对基于多层次技术的XML数据挖掘进行研究。

1Web数据挖掘的难点

第一,异构数据库的环境。因特网上的信息可以说就是一种数据路,具有大量的数据资源,每个站点的数据源都是异构的,因此,每个站点之间的信息和组织结构不一样,形成了一种异构数据库环境。想要获得和利用这些数据资源需要进行数据挖掘,这种数据挖掘需要对站点的异构数据集成进行研究,同时还要对因特网上的数据查询问题进行解决。第二,半结构化的数据结构。传统的数据库具有数据模型,能够通过这种模型来对特定的数据进行描述。但因特网上的数据较为复杂,没有统一的模型让人进行描述,且自身具有独立性、动态性的特点,存在自述层次,因而是一种半结构化数据。

2XML数据挖掘技术

2.1XML技术概述

XML是由万维网协会设计的一种中介标示性语言,主要被应用在Web中。XML类似于HTML,主要被设计用来描述数据的语言,为数据挖掘提供了一种独立的运行程序,能够实现对数据的共享,并利用计算机通讯将信息传递到多个领域。

2.2XML和HTML的比较

HTML是Web的重要技术要素之一,简单易学,被很多计算机专业人员应用于创建自己的、具有超文本特定的多媒体主页,能够实现网络和普通人的联系,创造出丰富的网页。但其在因特网的应用存在以下几点缺陷:第一,只是对信息的显示方式进行描述,没有对信息内容本身进行描述;第二,需要因特网服务器帮其处理任务工作,加重了网络的负担,降低了网络运行的效率。根据上文对XML技术的概述,可以看出,XML不是一种单纯的标记语言,而是一种定义语言,能够根据需要设定不同的标记语言,突破了HTML固定标记的限制,能够更好地推动Web的发展。

3基于XML数据挖掘框架设计

3.1设计的特点

第一,具有自然、性能良好、个性化设计的系统用户界面;第二,主要应用元搜索引擎页面。这种页面设计的主要思想是首先对用户的查询请求进行预处理,之后向各个搜索引擎发送查询的请求,最后,在经过处理之后向用户反馈检索结果。第三,Web页面的设计充分应用了HITS的算法。第四,利用XML技术对检索的数据进行预处理。主要表现为将数据库中的所有文档形式转化为XML文档形式,之后在数据仓库的应用下实现各种文档的集成。

3.2系统设计的结构

XML数据挖掘系统的结构主要包含用户界面模块、数据预处理模块和数据挖掘模块。第一,用户界面模块主要作为用户和系统交接的端口存在,用户通过这个界面来实现对数据挖掘系统的使用。在这个模块中,用户能够在对数据挖掘之前设定挖掘的参数,之后提出请求、对挖掘成果分析,实现个性化的数据挖掘。第二,数据预处理模块主要是指在对数据检索之后,应用XML技术对检索的数据进行预处理。第三,数据挖掘模块主要是对数据预处理后的模块信息进行挖掘,并将成果展示给用户。

4基于XML技术的Web数据挖掘

4.1数据挖掘方案的选取

基于XML技术的Web数据挖掘主要分为内容上的挖掘和形式上的挖掘两种,其中,内容挖掘主要是针对文档标记的开始和结束之间的文本部分,即对标记值的一种挖掘。具体的内容挖掘方案主要有三种:第一,利用专门的XML数据、半结构数据开发查询的语言,充分开发其查询功能,并将这种语言渗透在应用程序中,从而实现对数据的有限挖掘。这种挖掘方案能够将XML技术和数据挖掘技术进行有效的结合,且具有操作简单的特点。第二,实现对XML文档数据的结构化处理。在处理之后将其映射到现有的关系对象模型中,从而实现对数据的挖掘。第三,将XML文档视为一种文本,采用传统的数据挖局处理技术对数据进行挖掘。

4.2XML技术数据挖掘实现

XML技术的挖掘实现主要利用XQuery实现关联挖掘来进行数据挖掘,且不需要对其文档进行预处理和挖掘后处理,具有操作简单的优势。主要采用两种方式来执行XQuery。第一,使用XhiveNodeIf对象的executeXQuery进行语句的执行,使得集合的每个元素都是对应的对象,并将对象转换成DOM的节点来进行数据的挖掘。第二,利用XhiveXQueryQueryIf对象调用execute进行语句的执行。在这个过程中会涉及对外部参数的使用。

5结语

XML数据挖掘能够有效解决因特网数据挖掘难的问题,实现数据挖掘的简单化操作。XML数据挖掘将不同结构、不容易兼容的数据进行结合,并利用自身的灵活性和延展性将各种应用软件中的数据进行不同描述,从而方便因特网中数据的收集和记录。同时,基于XML数据是自我描述性的,不需要内部的描述处理就能实现数据的交换,为其对数据的处理和应用提供了便利的支持。因此,技术XML技术的数据挖掘成为当今因特网数据挖掘的研究重点,需要有关人员引起足够的重视,进而不断促进该技术对数据挖掘的应用。

作者:袁园 单位:重庆电讯职业学院

参考文献:

[1]卢珊.基于XML技术的Web数据自动挖掘新方法[J].信息技术与信息化,2014,12:141-143

[2]王雅轩,顼聪.基于XML的Web数据挖掘模型的设计研究[J].电子技术与软件工程,2015,03:213-214

数据挖掘技术研究篇5

关键词:人工智能;数据挖掘;发展前景

当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。

1人工智能

1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。

2数据挖掘

2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。

3数据挖掘与人工智能技术的联系

数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。

4人工智能和数据挖掘技术的发展前景

在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。

作者:喻正夫 单位:汉江师范学院

参考文献:

[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.

[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).

[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).

[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).

[5]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007(02):38-40.

数据挖掘技术研究篇6

关键词:数据挖掘;气象预报;研究

中图分类号:TP311.13文献标识码:A 文章编号:1672-3791(2016)04(c)-0000-00

现阶段,数据挖掘技术在气象预报中的应用主要包括以下两个方面:首先是结合统计学相关的计算方法。该方法在气象预报中的应用,能够对气象预报中多种数据参数进行分析,如谐波的成分、方差统计等。其次是结合软计算方法。该方法主要是用来建立相关的气象数据模型、分析相关的气象数据等。下面就对数据挖掘技术在气象预报中的应用进行阐述。

1 数据挖掘技术在气象预报中的研究

1.1 数据挖掘技术中的人工神经网络方法

所谓的人工神经网络就是由数量众多的节点连接形成一种计算模型[1]。该计算模型中的每一个节点都是一种相应的函数,其所具有良好的性能应用在解决系统中各种不同的问题,这类函数人们通常将其称之为激励函数。人工神经网络还是一个规模较大的自适应系统,它能够利用各种方式建立相关的记忆,然后通过相关的模式和方法将其未来的情况同记忆中最接近的记忆进行判定。人工神经网络系统与传统气象预报中所使用的方法,有着十分类似的特点,这些类似的特点使得人们可以通过利用人工神经网络方法进行气象预报。人工神经网络方法应用在气象预报中,相较于传统的气象预报的方法具有更高的准确率和良好的性能和效果,但是在实验过程中还是存在着一些缺陷,阻碍了其在气象预报中的发展和应用。

1.2 数据挖掘技术中的遗传计算方法

遗传计算方法是通过利用生物遗传而采取的一种新的搜索算法,其在运行的过程中不需要依靠相关的信息,拥有良好的通用性,在处理一些全局优化问题时,拥有着明显的优势[2]。其所具有的上述特点同传统气象预报中所使用的方法相比较拥有十分类似的特点,这些类似的特点使得人们可以通过利用遗传计算方法进行气象预报。遗传计算方法在天气预报中的使用能够更好的完成集成性的天气预报,并且在预报准确率相较于人工神经网络方法也更高。虽然遗传计算方法具有以上比较良好的性能,但是也还存在很多的缺陷,例如,其在进行局部搜索时,搜索的能力较差;遗传计算方法在进行分析计算时,所消耗的时间相较于传统方法也较长。如何解决其所存在的缺陷,是促进其进一步应用在天气预报中的重要手段。

1.3 数据挖掘技术中的支持向量机方法

支持向量机在近些年以来,逐渐受到了相关工作者和研究人员的重视,其同传统的方法相比较拥有很大的优势。最重要的是该方法的应用能够适用于各种模型之中,不受维数等因素的影响,且具有较高的精准度、运行速度快等优势,特别适用于解决样本较小的数据模型中所存在的问题。另外,其还拥有性能良好的泛化与抗过敏能力,在对较为复杂的气象就行预报时,与其他方法相比较分析出来的数据更加准确。相关研究人员在对该方法进行实验时,所得出的实验数据表明其整体的性能非常适合应用于实际气象预报的工作中。然而,虽然该方法整体性能十分优秀,但还是存在以下两点不足支出:首先,其在处理规模较大的问题时,速度还是相对较慢;其次,其在解决种类较多的问题存在着一定的困难。这两点不足之处在一定程度上使得其还不能够应用在实际的气象预报的工作中。

1.4 数据挖掘技术中的贝叶斯方法

贝叶斯方法的基本原理是将未知参数的相关信息进行全面的综合,通过利用贝叶斯公式运算出最后的信息作为气象预报的信息[3]。该方法在使用过程中是否具有高准确性,主要是取决于先前所取得信息的准确性,先前信息准确性越高,最后所得出预报信息的准确性也会相对较高。贝叶斯方法其主要的优势在于其拥有较强的推理能力,并且在相关数据信息不够完整的情况下,也能够完成推理工作,拥有良好的气象预报效果。这种具有较强的推理方法和良好的气象预报效果是使得贝叶斯方法应用在气象预报中具有一定的可行性。但阻碍其应用在实际工作中重要原因是因为其本身方法理论还有很多没有得到解决,所采用的方法也欠缺一定的合理性。

1.5 数据挖掘技术中的关联规则挖掘方法

关联规则挖掘方法的基本原理是通过调查分析以往的数据,从庞大的数据库中找到所需的资料[4]。在实际的应用过程中,相关研究人员在其基础之上做了进一步的深化,并通过相应的方法进行预测。根据最终的研究数据表明,这种方法相较于其他方法更加通俗易懂,便于人们熟练的应用。关联规则挖掘方法通过对以往的数据进行分析和预测,大大提高其对气象预报的准确度,对于预测气象的变化也十分的精准。但其本身所使用的方法却有两个很大的缺点,一是有可能出现数量众多的候选集,二是有可能会对现有的数据库进行重复扫描。这两种缺点直接导致该方法无法应用到实际的气象预报工作当中。

2 数据挖掘技术在气象预报中的未来研究方向

在传统的气象预报中,所采取的方法已经很难再得到进一步的提升,所以,相关的研究人员通过利用计算机技术研究新的气象预报方法,基于这种背景下,数据挖掘技术得到了发展和提升。尽管到目前为止,我国在该方面的研究资料相对较少,但在其研究的过程中还是获得了很多成果以及具有突破性的进展。然而,其本身还是拥有很多的缺陷急需相关研究人员进行解决。因此,研究人员应进一步研究数据挖掘方法,确保其能够准确的预报出气象情况。另外,由于计算机的不断改革和发展,增强了其所拥有的强大计算能力,促进了数据挖掘技术的进一步完善,使得人们开始关注其对于更长时间气象的预报[5]。

3 总结

总之,气象系统是一个十分复杂的系统,只要其内部发生一定的变化都造成自然界气候的变化。所以,如何提高人们预报气象的质量、发现自然界气候变化的趋势,成为当前全社会重点关注的问题。本文所介绍的数据挖掘技术则是一项能够实现人们准确预报和发现自然气候变化的重要方法,笔者通过对数据挖掘技术中每一种方法进行说明,分析其所存在的优劣点,为以后相关研究人员在这方面的研究奠定良好的提出,从而促进数据挖掘技术尽早的应用在实际的气象预报工作中。

参考文献

[1]彭昱忠,王谦,元昌安等.数据挖掘技术在气象预报研究中的应用[J].干旱气象,2015,01(01):19.

[2]段文广,周晓军,石永炜.数据挖掘技术在精细化温度预报中的应用[J].干旱气象,2012,01(01):130.

[3]邱声春.数据挖掘和数据融合技术在天气预报和气象服务中的应用研究[J].山西气象,2007,09(02):34.

数据挖掘技术研究篇7

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。www.133229.coM空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在gis中的应用

空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

数据挖掘技术研究篇8

1 数据挖掘的概念、步骤及常用方法

1.1 数据挖掘概念、步骤 数据挖掘(Data mining,DM)即数据库中的知识发现,是从大型数据库的海量数据中提取人们感兴趣的知识,这些知识是隐藏的、事先未知的、潜在有用的信息,挖掘的知识表现为概念、规则、规律、模式等形式[1]。数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果[2]。挖掘步骤大致有:问题定义、数据提取、数据预处理、数据挖掘、知识评估、结果应用这六步。

1.2 数据挖掘常用方法

1.2.1 描述统计 数据总结的目的是对数据进行从低层次抽象、浓缩到高层次,得出它的紧凑描述。最简单的数据总结方法是描述统计,它包括平均数、中位数、分位数等,它常和统计图配合应用。

1.2.2 关联规则 关联规则从本质上讲是条件概率,即当A发生时、B同时出现的概率有多大?只要B离50%较远就有意义。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联包括简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数,即使知道也不确定。因此关联分析生成的规则带有可信度。

1.2.3 分类和聚类 这是最常用的技术。分类方法主要有:回归、决策树、神经网络。分类分析在数据挖掘中是一项重要任务。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集。聚类要解决的就是实现满足这种要求的类的聚合。在进行聚类前,这些类别是潜在的,可分割的类的个数(聚类数)也是未知的。聚类大致分为统计方法、机器学习方法、神经网络方法和面向数据库的方法等。

1.2.4 偏差检测 数据库中的数据可能有一些异常记录,检测这些偏差很有意义。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

2 中医病历中医学数据挖掘的特点

目前中医病历中采集的中医学信息具有如下特点。

2.1 症状的模糊性 中医学对疾病的诊断是通过望、闻、问、切的四诊合参,获取有用信息,再结合医生的经验,对疾病做出诊断。症状的模糊性不仅表现在获得信息的形式多样,而且因中医症状存在着一症多名,或多症一名的现象,因此不同医生即使对同样的症状,可能会用不同的文字加以描述,比如对“患者不欲进食”的记录,可能会有纳差、食欲不振、纳呆等的不同。这种模糊性模式加大了中医学数据挖掘的难度。

2.2 症状的不完整性 病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映出来,表现为医学信息的不完全性。同时,许多医学信息的表达、记录本身就具有不确定和模糊性的特点[3],这方面在中医症状未做出标准量化方法并推行应用之前,尤为突出。疾病信息体现的客观不完整和描述疾病的主观不确切,形成了中医病历中医学信息的不完整性。

2.3 证候的复杂性 著名的王永炎院士指出了证候具有动态时空、内实外虚、多维界面的特点,简明扼要的描述了证候的复杂性。中医证候的复杂性给数据挖掘增加了难度,但这也恰好是数据挖掘发挥效力的用武之地。

2.4 治疗信息的个体化特性 中医治病之本是辨证论治,体现在“三因治宜”、“同病异治、异病同治”等方面。即使针对同一疾病相同的证,医生的处方用药也可能会有差异。这种个体化的治疗,充分体现了中医治病的精髓,而其中所蕴涵的深奥哲理和规律,用一般的研究方法难以全面发掘。数据挖掘在这方面很可能会有很高的应用价值。

2.5 挖掘过程的复杂性 中医药领域中的数据属性有离散型的,也有连续型和混合型的,对这些数据的噪声处理等预处理相当复杂,挖掘过程还需要人机交互、多次反复,其中任何一个环节都不能缺少专业人员。只有靠中医药专家的引导,针对具体问题,选择合理的挖掘方法,才能挖掘出真正有价值的知识。

在中医学数据挖掘中,应针对上述数据特点和挖掘目标,结合运用不同的挖掘方法,对非线性、不完全的信息进行智能处理,发挥各自的技术及其整合优势。

3 数据挖掘在中医药研究中的应用

近年来,数据挖掘技术在中医药研究中已得到应用。有学者认为中医药数据挖掘是中医药现代化研究的重要组成部分[4]。

3.1 中医药信息化研究 姚氏等[5]综合文献指出对中医药理论和实践进行信息化、数字化、知识化,能够克服中医名词术语过于繁杂造成的中医发展障碍,对于中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一,该问题的解决,能极大促进中医药现代化发展的进程。

3.2 中药研究 陈凯先等[6]认为对大量中药化学成分进行药效基团的建模研究,并对中药化学成分数据库进行柔性搜索,能够为更充分利用中药化学成分所含的化学信息提供技术支持。冯雪松等[7]对中药指纹图谱的特点及数据挖掘技术在其中的应用做了综述,指出中药指纹图谱由于反映了药用植物的“共有特征”,又由于地域、生长环境、采收等多种因素影响,具有统计数学中多元随机分布的“模糊性”,利用模糊数学、统计学、计算机技术等建立一种同时反应这两种特征数据库,存储中药指纹图谱信息,应用数据挖掘技术发现和解析其中潜在的信息,以评价和控制中药质量及研究中药定量组效关系。

3.3 方剂研究 乔延江等[4]综述了KDD在中药研究开发中的意义。乔氏等认为中药(复方)的KDD研究是在中医理论指导下,以数据挖掘技术作为知识发现的主要环节,对中药研发、设计、中医组方理论及规律、中药作用机制、构效关系、中药药效集团群的确认、化学成分及药理指标的预测等进行多方位、多学科、系统的现代化研究,是一个高度复杂的系统。其目的是建立传统中医理论同现代中药的科学化、系统化、可描述化的关系,是中医药现代化的重要组成部分。杨林等[8]阐述了数据库技术与Web结合实现网上中医方剂的信息挖掘。将方剂文献资料进行全方位解析,设计内容详细的数据库与Web技术结合,通过Internet开发了网上中医方剂信息分析处理系统,选择支持Web-DB的ORACLE数据库管理系统作为系统开发和运行平台。经过数据预处理、选择和筛选数据、确定分析目标、信息挖掘结果显示等阶段,完成对一批方剂数据的信息挖掘。姚美村等[9]应用数据挖掘技术对治疗消渴病的中药复方配伍的内涵进行探索性研究。以文献收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库;以数据挖掘系统Enterprise Miner为平台,在单味药层次上进行消渴病复方组成药味之间的关联规则分析研究,结果显示单味药、两味药组合、三味药组合的应用规律与历代中医在消渴病治疗用药方面的论述一致。挖掘结果的可信度可达到或接近中医专家的分析能力。秦首科等[10]在构建方剂、中药和病症数据仓库的基础上,通过对数据仓库内部各种关联和映射关系的定义,利用中药和病症数据仓库的联机分析功能,探讨了方剂和其针对症状之间的联系。蒋永光等[11]对从《中医大辞典·方剂分册》中筛选出1355首脾胃方中的414种药物,经用聚类分析、对应分析和频繁集方法,从功效、归经、药性和药味等方面进行了分类特征分析,并就脾胃方的核心药物、方剂结构、“药对药”组和“方药证”的对应关联方面形成了有关技术规则和处理程序。

3.4 中医证候研究 张世筠等[12]应用流行病学和变量聚类分析的数理统计方法,对2442例中医肝证患者进行了初步研究。由调查组采集核对中医四诊资料,按肝证辨证记分标准记分,分为11个证型。经过聚类分为实证、风证、虚证3类,解决了中医各肝证的归属问题,本研究还定量地阐明肝的实证、虚证、风证的相互关系。白云静等[13]在充分阐释证候系统的非线性、复杂性特征的基础上,探析了人工神经网络方法用于证候研究的可行性,并介绍了基于人工神经网络的证候研究方法。徐蕾等[14]采用boot strap方法对406例样本进行扩增以满足数据挖掘对样本量的要求,采用基于信息熵的决策树C4.5算法建立中医辨证模型。通过决策树C4.5算法筛选出对辨证分型有意义的26个因素,按其重要程度排序;产生出清楚易懂可用于分类的决策规则,建立辨证模型,模型分类符合率为:训练集83.6%,验证集80.67%,测试集81.25%;模型区分各类证型的灵敏度和特异度也较高。认为决策树C4.5算法建立的模型效果较好,可用于慢性胃炎中医证型的鉴别诊断。吴斌[15]等探讨了肾阳虚证的辨证因子分布规律。以肾阳虚证量表为基础,从定性、定量角度收集资料。以定性评分计算各辨证因子的出现频率,用定量评分进行分层聚类分析。发现:畏寒、肢冷、夜尿、腰背发冷等辨证因子出现频率高,聚类分析提示肾阳虚主证、舌象、脉象分布较有规律。认为根据数理统计结果对肾阳虚证的辨证因子进行初筛,为肾阳虚证的量化研究奠定了基础。

4 小结与展望

利用数据挖掘技术探求中医药诊治疾病的规律,形成用数字描述和表达的中医药内容,能有力推动中医药研究的规范化进程。但由于中医药信息的复杂性和特殊性,中医药数据挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有更高的要求。目前中医药数据库资源已较丰富。数据挖掘技术将成为中医药现代化的重要组成部分。但从目前应用数据挖掘技术进行的中医药研究来看,中医数据挖掘尚处于起步阶段,多数是对古文献数据的整理挖掘,缺乏用于探求中医诊治疾病规律和复方用药规律的研究。这可能与中医数据的复杂性所致的数据预处理繁琐有关;如能通过建立结构化数据库,采用结构化的临床信息采集系统收集数据,将能提高中医学数据挖掘的效率及可信度。有助于发现中医的诊治规律,并创新诊治模式,提高诊疗与科研教学水平。

1 Srikanth R''Agrawal R.Mining Sequential Patterns:Generalizationsand Performance Improvement.In 5th Int’ Extending Database Technology.Avignon France''1996''121-130.

2 翁敬农(译).数据挖掘教程.北京:清华大学出版社''2003''11.

3 Qu JH''Liao QM''Xu WZ''et al.The construction of medical database and datamining.Journal of the Fourth Military Medical University''2001''22(1):88.

4 乔延江''李澎涛''苏钢强''等.中药(复方)KDD研究开发的意义.北京中医药大学学报''1998''21(3):15-17.

5 姚美村''袁月梅''艾路,等.数据挖掘及其在中医药现代化研究中的应用.北京中医药大学学报''2002''25(3):20-23.

6 陈凯先''蒋华良''嵇汝运.计算机辅助药物设计—原理、方法及应用.上海:上海科技出版社''2001''1.

7 冯雪松''董鸿晔.中药指纹图谱的数据挖掘技术.药学进展''2002''26(4):198-201.

8 杨林''徐慧''任廷革,等.数据库技术与Web结合实现网上中医方剂的信息挖掘.中国中医药信息杂志''1999''6(9):71-72.

9 姚美村''艾路''袁月梅''等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报''2002''25(6):48-50.

10 秦首科''牛孺子.利用数据仓库分析处理中医方剂评析.中医药学刊''2002''20(3):341-342.

11 蒋永光''李力''李认书''等.中医脾胃方剂配伍规律数据挖掘试验.世界科学技术—中医药现代化''2003''5(3):33-37.

12 张世筠''沈明秀''王先春''等.中医肝证的变量聚类分析.中国中西医结合杂志''2004''24 (1):35.

13 白云静''申洪波''孟庆刚''等.中医证候研究的人工神经网络方法探析.中医药学刊''2004''22(12):2221-2223.

14 徐蕾''贺佳''孟虹''等.基于信息熵的决策树在慢性胃炎中医辨证中的应用.第二军医大学学报''2004''25(9):1101-1103.

推荐期刊
  • 数据
    刊号:11-5323/C
    级别:省级期刊
  • 大数据
    刊号:10-1321/G2
    级别:统计源期刊
  • 大数据时代
    刊号:52-1163/G2
    级别:省级期刊
  • 数据通信
    刊号:11-2841/TP
    级别:部级期刊