线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于SimHash的文本相似检测算法研究

王添男; 冯锋 电子测试 2019年第15期

摘要:simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活。

关键词:simhash文本相似监测

单位:宁夏大学信息工程学院; 宁夏银川750021

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子测试

省级期刊

¥400.00

关注 42人评论|1人关注