线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于余弦距离的局部敏感哈希的KNN算法在中文文本上的快速分类

戴上平 冯鹏 刘盛英杰 舒红 计算机工程与科学 2015年第10期

摘要:文本分类是文本挖掘中最重要的研究内容之一.为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类.同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验.在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多.

关键词:文本分类局部敏感哈希knn布尔向量

单位:华中师范大学计算机学院 湖北武汉430079 测绘遥感信息工程国家重点实验室 湖北武汉430079

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注