摘要:提出一种基于汉语语块结构并利用AdaBoost—SVM集成学习算法的汉语韵律短语识别方法。首先,对语料进行自动分词、词性标注和初语块标注,然后基于结合紧密度获取语块归并规则并利用规则对初语块进行归并,得到最终的语块结构。其次,基于语块结构并利用AdaBoost—SVM集成算法,构建汉语韵律短语识别模型。同时,该文利用多种算法分别构建了利用语块信息和不利用语块的多个模型,对比实验结果表明,表示浅层句法信息的语块能够在韵律短语识别中做出积极有效的贡献;利用Ada—Boos—SVM集成算法实现的模型性能更佳。
关键词:汉语语块 韵律短语 识别
单位:山西大学计算机与信息技术学院 山西太原030006 山西大学计算智能与中文信息处理教育部重点实验室 山西太原030006
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社