线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于word2vec和LSTM的饮食健康文本分类研究

赵明; 杜会芳; 董翠翠; 陈长松 农业机械学报 2017年第10期

摘要:为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vee实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、hag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。

关键词:文本分类word2vec词向量长短期记忆网络

单位:中国农业大学信息与电气工程学院; 北京100083; 公安部第三研究所; 上海200031

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

农业机械学报

北大期刊

¥1272.00

关注 25人评论|1人关注