线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

一种基于EMD的文档语义相似性度量

王晓东 郭雷 方俊 董淑福 电子与信息学报 2008年第09期

摘要:针对基于EMD(Earth Mover’s Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——Mdss_EMD(Metric for document semantic similarity based EMD)。首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化。该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,Mdss_EMD的整体性能优于原EMD及现有其它类似方法。

关键词:信息检索度量文档相似性匹配语义距离

单位:空军工程大学电讯工程学院 西安710077 西北工业大学自动化学院 西安710072

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

北大期刊

¥1272.00

关注 31人评论|2人关注