摘要:除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以On—toNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
关键词:命名实体 语义关系 双语映射 平行语料库
单位:苏州大学自然语言处理实验室 江苏苏州215006 苏州大学计算机科学与技术学院 江苏苏州215006
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社