摘要:针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理漠型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元谆图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳类特征,提出并实现了获取最佳分类特征集与识剐阈值的算法。实验结果表明,页面图文模型简化了页元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。
关键词:页面信息抽取 页面元素 图文模型 特征归纳
单位:解放军理工大学 江苏南京210007
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关范文
页面升级紧急通知