摘要:随着Internet以及Intranet中大量可利用信息的爆炸式增长,文水分类成为处理和组织大量文档数据的关键技术之一。该文提出一种术体论和统计方法相结合的混合语言模型,用以解决自动文本小分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言木体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言木体知识库分别获得对文档的评价值,并以所获得的最高计价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文术分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。
关键词:文本分类 水体 混合语言模型 上下文 多元信息
单位:哈尔滨工业大学语言语音教育部-微软重点实验室; 哈尔滨150001
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社