摘要:随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deepweb采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。
关键词:数据采集 hadoop 可视化
单位:北京市计算中心云计算关键技术与应用北京市重点实验室 北京100094 北京市计算中心云计算关键技术与应用北京市重点实验室物联网与大数据应用事业部 北京100094
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社