页面图文模型与元素特征归纳

于龙王金龙计算机工程与科学 2013年第04期

摘要：针对以图文内容为核心的页面信息抽取，以形式化的方式提出了对页面进行元素分析的理漠型。通过定义基础元素集与变换规则，页面图文模型简化了页面DOM树结构，并展现出页面内元谆图文特征。在此基础上，通过定义元素分类相似度，从页面图文模型的元素特征中进行优选，归纳最佳类特征，提出并实现了获取最佳分类特征集与识剐阈值的算法。实验结果表明，页面图文模型简化了页元素的规模，特征集归纳算法能够在较小的学习成本下获得理想的分类精度。

关键词：页面信息抽取页面元素图文模型特征归纳