基于word2vec和LSTM的饮食健康文本分类研究

赵明; 杜会芳; 董翠翠; 陈长松农业机械学报 2017年第10期

摘要：为了对饮食文本信息高效分类，建立一种基于word2vec和长短期记忆网络（Long-short term memory，LSTM）的分类模型。针对食物百科和饮食健康文本特点，首先利用word2vee实现包含语义信息的词向量表示，并解决了传统方法导致数据表示稀疏及维度灾难问题，基于K-means＋＋根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入，训练LSTM分类模型，自动提取特征，进行饮食宜、忌的文本分类。实验采用48000个文档进行测试，结果显示，分类准确率为98．08％，高于利用tf-idf、hag-of-words等文本数值化表示方法以及基于支持向量机（Support vector machine，SVM）和卷积神经网络（Convolutional neural network，CNN）分类算法结果。实验结果表明，利用该方法能够高质量地对饮食文本自动分类，帮助人们有效地利用健康饮食信息。

关键词：文本分类 word2vec 词向量长短期记忆网络

单位：中国农业大学信息与电气工程学院; 北京100083; 公安部第三研究所; 上海200031

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

在线咨询期刊咨询

基于word2vec和LSTM的饮食健康文本分类研究

服务介绍

期刊推荐

订阅杂志

期刊咨询