线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于Hash改进的k-means算法并行化设计

张波; 徐蔚鸿; 陈沅涛; 朱玲 计算机工程与科学 2016年第10期

摘要:为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案.将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数.又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率.实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度.

关键词:海量数据hadoophash中心选取

单位:长沙理工大学计算机与通信工程学院; 湖南长沙410114

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注