基于一种混合语言模型的自动文本分类技术研究

郑德权; 李生; 赵铁军; 于浩电子与信息学报 2007年第03期

摘要：随着Internet以及Intranet中大量可利用信息的爆炸式增长，文水分类成为处理和组织大量文档数据的关键技术之一。该文提出一种术体论和统计方法相结合的混合语言模型，用以解决自动文本小分类问题。首先，通过学习不同类别的训练语料，分别获得各自类别的语言木体知识库，构造成为不同类别的分类器。对于实际文档，将基于不同类别的语言木体知识库分别获得对文档的评价值，并以所获得的最高计价值决定该文档的类别归属。与Bayes，k-nearest neighbor，support vector machine等3种典型的文术分类器进行了比较。实验结果表明，该文方法的分类性能均胜于其上述3种方法。

关键词：文本分类水体混合语言模型上下文多元信息