摘要:针对主题提取时现有的LDA模型对于主题数目和关键时间点的确定存在一定困难、对于主题结果的准确解释上存在难度的问题,本文提出的SLDTM融合了一种改进的聚类算法到DTM模型中,并在各个子集上采用标签信息进行监督学习。该模型中滑动窗口大小依据主题分布特征而变化,实现更合理的文本集分割,主题的个数也可变且易于理解。实验表明:和以往主题模型相比,SLDTM提取的主题更能体现内容发生的重要变化,语义也更加清晰。
关键词:主题提取 主题模型 标签 文本处理
单位:东北电力大学信息工程学院; 吉林吉林132012
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社