线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于Spark的BIRCH算法并行化的设计与实现

李帅; 吴斌; 杜修明; 陈玉峰 计算机工程与科学 2017年第01期

摘要:在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRcH算法分别与单机的BIRCH算法和MLlib中的K—Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。

关键词:sparkbirch并行化性能优化

单位:北京邮电大学智能通信软件与多媒体北京重点实验室; 北京100876; 北京邮电大学计算机学院; 北京100876; 国网山东省电力公司电力科学研究院; 山东济南250000

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注