线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

一种基于搜索策略的多主题信息采集方法

仲兆满; 李存华; 刘宗田; 管燕 电子学报 2014年第12期

摘要:本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系。在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数。针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法。设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较。结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能。

关键词:多主题信息采集原子规则内置搜索通用搜索相关性计算

单位:淮海工学院计算机工程学院; 江苏连云港222000; 上海大学计算机学院; .E海200072

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子学报

北大期刊

¥1272.00

关注 25人评论|0人关注