摘要:类似“百度知道”这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织。社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求。基于KullbackLeibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算法的基础上,结合语言模型的思想,提出一种改进的分类算法:ngram KLD。通过在一个大尺度的问答对数据集合上进行的一系列实验,表明ngram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好地满足了问题分类任务的要求。
关键词:短文本分类 distance 语言模型
单位:华中科技大学电子与信息工程系 湖北武汉430074
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社