首页 > 期刊 > 计算机工程与科学 > 基于聚类分析技术的数据清洗研究 【正文】
摘要:数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤.数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法.本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务.
关键词:数据清洗 近似重复记录 聚类 icad
单位:华中科技大学计算机科学与技术学院,湖北武汉430074
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
相关范文
北大期刊
¥624.00