基于中心向量的多级分类KNN算法研究

刘述昌; 张忠林计算机工程与科学 2017年第09期

摘要：针对KNN算法在中文文本分类时的两个不足：训练样本分布不均，分类时计算开销大的问题，在已有改进算法的基础上进行了更深入的研究，提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整，通过样本裁减技术使样本分布更趋于理想的均匀状态，同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下，使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值（预选类别个数），根据最近邻思想对待分类文本进行所属类别判定。实验结果表明，该算法在不损失分类精度的情况下，不仅降低了计算复杂度，而且显著提高了分类速度。

关键词：文本分类多级分类器类中心向量 k最近邻