线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于类别分布差异和VPRS特征选择的文本分类方法

吴迪; 张亚平; 殷福亮; 李明 电子与信息学报 2007年第12期

摘要:权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。

关键词:文本分类特征过滤权值计算特征选择可变精度粗糙集

单位:大连理工大学计算机系; 大连116024; 中航一集团沈阳飞机设计研究所; 沈阳110035

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

北大期刊

¥1272.00

关注 31人评论|2人关注