线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于一种混合语言模型的自动文本分类技术研究

郑德权; 李生; 赵铁军; 于浩 电子与信息学报 2007年第03期

摘要:随着Internet以及Intranet中大量可利用信息的爆炸式增长,文水分类成为处理和组织大量文档数据的关键技术之一。该文提出一种术体论和统计方法相结合的混合语言模型,用以解决自动文本小分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言木体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言木体知识库分别获得对文档的评价值,并以所获得的最高计价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文术分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。

关键词:文本分类水体混合语言模型上下文多元信息

单位:哈尔滨工业大学语言语音教育部-微软重点实验室; 哈尔滨150001

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子与信息学报

北大期刊

¥1120

关注 31人评论|2人关注