摘要:重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deepweb环境下是可行且有效的.
关键词:重复记录 深层web 数据清洗
单位:东北大学信息科学与工程学院; 辽宁沈阳110004
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社