摘要:有效和稳定的特征提取和特征表示是提高在线评论情感分析性能的重要因素.在常规的连续词袋性、触及对等特征的基础上,本文研究在线评论中固定搭配特征的提取与表示方法,提出结合互信息和平均互信息、基于粗糙集两种策略用于固定搭配特征提取,并从特征抽取方法的有效性和稳定性分析出发考查所抽取的固定搭配其内部及外部稳定性,并将经筛选的固定搭配特征融合于多种情感分析模型中进行情感分析.真实酒店评论数据上的实验表明,固定搭配特征的恰当表示和筛选有效改善情感分析模型的分类精度,此外研究发现评论中情感特征词分布不均衡情况下采用可变精度粗规则的提取策略有助于提高情感分析的分类精度.
关键词:情感分析 固定搭配特征提取 互信息与平均互信息 粗糙集 支持向量机
单位:哈尔滨工业大学信息管理与信息系统研究所 黑龙江哈尔滨150001
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社