一种基于粗糙集的大规模语料库语言学知识发现模型

陈清才; 王晓龙; 赵健计算机工程与科学 2004年第05期

摘要：文中首先通过语言学特征表来对文本信息进行结构化处理,同时实现了对远距离约束的表示;然后借助于面向个体的数据泛化算法来去除语言学特征表中的冗余信息,并利用规则抽取算法过滤特征表中不一致的部分,从而为相应的自然语言处理任务建立了一个一致、高效的规则库.最后,本文研究了模型在汉语词义排歧以及音字转换中的应用,在采用了动态规则平滑算法后,分别获得了 0.93和 0.95的判别精度以及0.92和0.89的覆盖率,这一结果显示模型具有很高的实用性.

关键词：浯言学知识发现粗糙集自动排歧汉语音字转换音字转换