摘要:权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。
关键词:文本分类 特征过滤 权值计算 特征选择 可变精度粗糙集
单位:大连理工大学计算机系; 大连116024; 中航一集团沈阳飞机设计研究所; 沈阳110035
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社