线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于聚类分析技术的数据清洗研究

刘芳; 何飞 计算机工程与科学 2005年第06期

摘要:数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤.数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法.本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务.

关键词:数据清洗近似重复记录聚类icad

单位:华中科技大学计算机科学与技术学院,湖北武汉430074

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注