摘要:作为数据挖掘的一项重要任务,离群点检测已经引起人们的广泛关注.本文基于粗糙集理论来讨论离群点的定义与检测问题,提出了一种新的离群点定义——粗糙序列离群点以及相应的离群点检测算法RSOD.该算法利用粗糙集理论中的知识熵和属性重要性等概念来构建三种类型的序列,并通过分析序列中元素的变化情况来检测离群点.在UCI标准数据集上,将RSOD算法与现有的离群点检测算法进行了比较分析,实验结果表明,我们所提出的离群点检测方法是有效的.
关键词:离群点检测 粗糙集 数据挖掘 序列 知识熵
单位:青岛科技大学信息科学技术学院; 山东青岛266061; 中国科学院计算技术研究所; 北京100080
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社