子句对齐及其在专利统计机器翻译中的应用

何彦青; 张娟中国科技资源导刊 2014年第04期

摘要：针对专利文献句子偏长的特点，将统计机器翻译中的训练语料进行子句切割获取双语的子句序列，再采用统计和规则相结合的策略来生成子句对齐，建立基于简单子句的双语语料来重新训练统计机器翻译系统，在一定程度上改善了原有双语训练语料中的短语对齐和词对齐，可以更为深入地利用平行语料中蕴含的翻译信息，应用于专利统计机器翻译中，在NTCIR-9的测试集上进行实验比较，获得较为满意的翻译效果。

关键词：子句对齐词对齐简单子句专利文献统计机器翻译