摘要:该文提出一种支持向量机(Support Vector Machines,SVM)和粗糙集(R0ugh Set,Rs)相结合的中文机构名称短语识别方法。该方法借助词的基本语义搭配关系表示短语的构成规则,并通过粗糙集属性约简的方法自动学习到机构名称构成规则的无冗余集。识别时,首先寻找到与这些规则匹配的词串作为候选机构名,然后结合候选机构名以及其上下文词的语义特征,利用SVM分类器判断该候选是否是真正的机构名称。这种方法对1617万字人民日报语料开放测试的F值分别达到82.06%。
关键词:模式识别 svm 特征选择 语义 粗糙集
单位:哈尔滨工业大学计算机学院; 哈尔滨150001
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社