线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于MapReduce的Bagging决策树优化算法

张元鸣; 陈苗; 陆佳炜; 徐俊; 肖刚 计算机工程与科学 2017年第05期

摘要:针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。

关键词:决策树baggingmapreduce模型大数据分析准确性

单位:浙江工业大学计算机科学与技术学院; 浙江杭州310023

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注