基于历史网页的事件报导信息系统设计与分析

黄连恩李晓明计算机工程与科学 2008年第02期

摘要：Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今，它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页，而且以每天100～200万网页的速度在不断增加。这些网页不仅来源于不同的URL，而且还包含同一个URL的不同内容版本，其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统（HisTrace）框架。该系统旨在支持人们从Webirdomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道，并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性，也由于网络信息的复杂性和随意性，这其中有不少挑战。本文对其中的主要环节进行了分析。最后，我们简要介绍了系统的初步实现情况。

关键词：网络信息挖掘网页内容分析文本消重网页链接结构信息压缩