摘要:传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究.随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题.为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响.这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征.这些特征按照各种不同的方式进行组合作为模型的输入.在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性.
关键词:商品名称 不规则文本 最大熵模型 词的分布式表示
单位:海军工程大学理学院; 湖北武汉430033; 中国科学院武汉文献情报中心; 湖北武汉430071
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
贵州省政法管理干部学院学报