摘要:水利信息分类是水利科学数据共享标准化最为重要的一项工作,因此对水利领域大量数据信息的分类十分有必要。针对水利文本数据非结构化的特点,设计一个基于主题模型的水利文本信息分类方案,通过结合LDA主题模型和GloVe词向量模型的优点,提出一种新的主题模型。利用AdaBoost算法改进KNN分类器,在迭代中对分类器的错误进行适应性调整,最终得到分类器的集合。实验结果表明,使用AdaBoost提升KNN对于水利文本分类效果良好,分类效果远好于常见的朴素贝叶斯和决策树,和原来的KNN分类器相比,微观准确率提高1.1个百分点,宏观准确率提高了4.1个百分点,说明在水利文本分类中使用AdaBoost算法可提升KNN分类器的有效性。
关键词:主题模型 水利文本信息 文本分类 方案 lda
单位:武汉大学计算机学院; 湖北武汉430072; 甘肃省水利厅信息中心; 甘肃兰州730000
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社