摘要:针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。
关键词:子句对齐 词对齐 简单子句 专利文献 统计机器翻译
单位:中国科学技术信息研究所; 北京100038; 北京联合大学; 北京100101
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社