汉语基本块规则的自动学习和扩展进化

清华大学学报·自然科学版 2008年第01期

摘要：为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识，从汉语多词语基本块入手，提出一套完整处理方案。该方案从标注语料库中自动获取所有基于词类的基本块规则，通过设置规则置信度自动排除大量低可靠和无效规则。针对其中的高频低可靠规则，不断引入更多的内部词汇约束和外部语境限制知识，使之逐步进化为描述能力更强的结构化规则。同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价。实验结果表明：现有算法以16％的有效扩展规则覆盖了93％的标注正例，并使预期精度从51％提高到81％，显示了这套规则学习和评价方法的有效性。

关键词：信息处理规则知识获取基本块置信度分析知识约束进化