基于边界标记集的专利文献术语抽取方法

丁杰吕学强刘克会计算机工程与科学 2015年第08期

摘要：目前，大部分术语边界的确定方法是通过选取合适的统计量，设置合适的阈值计算字符串之间的紧密程度，但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题，在研究了大量专利文献的基础上，提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念，并结合专利文献中术语边界的特点构建专利术语边界标记集；提出了一种种子术语权重计算方法抽取种子术语；使用人民日报语料作为对比语料抽取专利文献术语部件词库，提高候选术语的术语度；最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明，所提出的方法具有较好的实验结果，正确率81．67％，召回率71．92％，F值0．765，较对比实验有较大提高。

关键词：边界标记集种子术语部件库左右边界熵