线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于中心向量的多级分类KNN算法研究

刘述昌; 张忠林 计算机工程与科学 2017年第09期

摘要:针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。

关键词:文本分类多级分类器类中心向量k最近邻

单位:兰州交通大学电子与信息工程学院; 甘肃兰州730070

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注