MRI：面向并行迭代的MapReduce模型

马志强; 张力; 杨双涛计算机工程与科学 2016年第12期

摘要：机器学习领域内的多数模型均需要通过迭代计算以求解其最优参数，而MapReduce模型在迭代计算中的缺陷不足导致其在迭代计算中无法得到广泛应用。为解决上述矛盾，基于MapReduce模型提出并实现了一种可用于模型参数求解的并行迭代模型MRI。MRI模型在保持Map以及Reduce阶段的基础上，新增了Iterate阶段以及相关通信协议，实现了迭代过程中模型参数的更新、分发与迭代控制；通过对MapReduce状态机进行增强，实现了节点任务的重用，避免了迭代过程中节点任务重复创建、初始化以及回收带来的性能开销；在任务节点实现了数据缓存，保障了数据的本地性，并在Map节点增加了基于内存的块缓存机制，进一步提高训练集加载效率，以提高整体迭代效率。基于梯度下降算法的实验结果表明：MRI模型在并行迭代计算方面性能优于MapReduce模型。

关键词：mapreduce 并行计算迭代计算机器学习