摘要:词性自动赋码技术的日臻成熟为语料库建设提供了有力支撑。与本族语语料不同,学习者产出中充斥着大量错误。这必然会对赋码的准确性造成干扰。因此,除了精度以外,抗干扰能力也是需要着重考虑的因素。本文统计并比较了日语开源自动词性赋码器对学习者语料赋码的精度以及赋码信度与语料质量的相关性。从中发现,MeCab表现最出色,ChaSen次之,JUMAN则稍逊一筹。此外,研究证实,日语开源赋码器对学习者语料赋码的精度甚至超过了本族语语料。因此,完全可以充当语料库建设的可靠工具。
关键词:语料库 赋码 隐马尔科夫模型 日语
单位:上海外国语大学 上海200083
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社