摘要:针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。
关键词:短文本 共现距离 期望交叉熵 特征提取
单位:西北师范大学计算机科学与工程学院; 甘肃兰州730070; 桂林电子科技大学广西可信软件重点实验室; 广西桂林541004
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社