摘要:该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。
关键词:句法分析 隐马尔科夫模型 中心驱动模型 结构模式识别
单位:哈尔滨工业大学语言语音教育部一微软重点实验室; 哈尔滨150001
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社