线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于主题分析的文本分割技术研究

刘铭; 王晓龙; 刘远超 电子学报 2009年第02期

摘要:本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.

关键词:主题分析词汇链知网二次划分

单位:哈尔滨工业大学计算机科学与技术学院; 黑龙江哈尔滨150001

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子学报

北大期刊

¥1272.00

关注 25人评论|0人关注