线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

科技大数据背景下的中英双语语料库的构建及其特点研究

苏晓娟; 张英杰; 白晨; 吴思 中国科技资源导刊 2019年第06期

摘要:首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用。然后通过分析新时期科技大数据对语料库构建的要求,从期刊、专利中选择“分布式能源”主题数据集,结合“神经网络机器翻译+统计机器翻译”的机器翻译技术,构建形成20834个双语词对初试语料集,利用中国科学技术信息研究所专利数据库、德温特专利数据库形成6428条专利数据对双语词对初试语料集进行测试应用。最后从忠实度、流畅度、可理解度3个方面进行人工评测。

关键词:科技大数据双语语料库机器学习语料库构建机器翻译引擎

单位:北京石油化工学院; 北京102617; 中国科学技术信息研究所; 北京100038

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国科技资源导刊

统计源期刊

¥228.00

关注 44人评论|0人关注