日语自动词性赋码器的信度研究

毛文伟外语电化教学 2012年第03期

摘要：词性自动赋码技术的日臻成熟为语料库建设提供了有力支撑。与本族语语料不同，学习者产出中充斥着大量错误。这必然会对赋码的准确性造成干扰。因此，除了精度以外，抗干扰能力也是需要着重考虑的因素。本文统计并比较了日语开源自动词性赋码器对学习者语料赋码的精度以及赋码信度与语料质量的相关性。从中发现，MeCab表现最出色，ChaSen次之，JUMAN则稍逊一筹。此外，研究证实，日语开源赋码器对学习者语料赋码的精度甚至超过了本族语语料。因此，完全可以充当语料库建设的可靠工具。

关键词：语料库赋码隐马尔科夫模型日语