线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

不规则文本中商品名称识别的特征选择

杨美妮; 何涛; 沈静; 张建军 计算机工程与科学 2016年第10期

摘要:传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究.随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题.为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响.这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征.这些特征按照各种不同的方式进行组合作为模型的输入.在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性.

关键词:商品名称不规则文本最大熵模型词的分布式表示

单位:海军工程大学理学院; 湖北武汉430033; 中国科学院武汉文献情报中心; 湖北武汉430071

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注