摘要:如何从海量文本中自动提取相关信息已成为巨大的技术挑战,文本分类作为解决该问题的重要方法已引起广大关注,而其中文本表示是影响分类效果的关键因素。为此采用相关主题模型进行文本表示,以保证信息完整同时表现主题相关性;基于该模型,对主题数目和特征提取实施了优化处理,综合复杂度和对数似然函数来确定最优主题数目,引入基于互信息的主成分分析算法进行最优特征提取,降低数据维度和特征冗余,使用R语言进行可视化实验分析。
关键词:文本分类 ctm模型 特征提取
单位:华中师范大学计算机学院; 湖北武汉430079
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社