线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

页面图文模型与元素特征归纳

于龙 王金龙 计算机工程与科学 2013年第04期

摘要:针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理漠型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元谆图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳类特征,提出并实现了获取最佳分类特征集与识剐阈值的算法。实验结果表明,页面图文模型简化了页元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。

关键词:页面信息抽取页面元素图文模型特征归纳

单位:解放军理工大学 江苏南京210007

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注