摘要:在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRcH算法分别与单机的BIRCH算法和MLlib中的K—Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。
关键词:spark birch并行化 性能优化
单位:北京邮电大学智能通信软件与多媒体北京重点实验室; 北京100876; 北京邮电大学计算机学院; 北京100876; 国网山东省电力公司电力科学研究院; 山东济南250000
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社