线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于短语的柬汉双语LDA主题模型

谢庆; 严馨; 诺宇; 徐广义; 周枫; 郭剑毅 计算机工程与科学 2019年第08期

摘要:为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型基于一个3层贝叶斯网络模型,在此框架下,首先搜集中文和柬埔寨语的可比语料,每一对双语可比语料文档共享一个相同的主题分布,之后引入发现主题以及主题短语的主题模型:对每个单词,首先进行主题抽样,然后将其状态作为短语进行采样,最后对来自特定主题短语分布的单词进行采样。通过实验结果可知,基于短语的双语LDA主题模型比一般的双语LDA模型更能抓住文章的主题,且有更好的主题预测能力。

关键词:柬汉双语短语主题模型

单位:昆明理工大学信息工程与自动化学院; 云南昆明650504; 云南南天电子信息产业股份有限公司; 云南昆明650041

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注