线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

一种面向Deep Web数据源的重复记录识别模型

申德荣; 刘丽楠; 寇月; 聂铁铮; 于戈 电子学报 2010年第02期

摘要:重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deepweb环境下是可行且有效的.

关键词:重复记录深层web数据清洗

单位:东北大学信息科学与工程学院; 辽宁沈阳110004

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子学报

北大期刊

¥1272.00

关注 25人评论|0人关注