基于信息增益改进贝叶斯模型的汉语词义消歧

范冬梅卢志茂张汝波潘树燊电子与信息学报 2008年第12期

摘要：词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究，其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法，并以此改进贝叶斯模型。通过信息增益计算，挖掘上下文中词语的位置信息，提高贝叶斯模型知识获取的效率，从而改善词义分类效果。该文在8个歧义词上进行了实验，结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3．5个百分点，改进幅度较大，效果突出，证明了该方法的有效性。

关键词：词义消歧自然语言处理信息增益贝叶斯模型