摘要:文本分类是文本挖掘中最重要的研究内容之一.为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类.同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验.在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多.
关键词:文本分类 局部敏感哈希 knn 布尔向量
单位:华中师范大学计算机学院 湖北武汉430079 测绘遥感信息工程国家重点实验室 湖北武汉430079
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社