摘要:机器学习领域内的多数模型均需要通过迭代计算以求解其最优参数,而MapReduce模型在迭代计算中的缺陷不足导致其在迭代计算中无法得到广泛应用。为解决上述矛盾,基于MapReduce模型提出并实现了一种可用于模型参数求解的并行迭代模型MRI。MRI模型在保持Map以及Reduce阶段的基础上,新增了Iterate阶段以及相关通信协议,实现了迭代过程中模型参数的更新、分发与迭代控制;通过对MapReduce状态机进行增强,实现了节点任务的重用,避免了迭代过程中节点任务重复创建、初始化以及回收带来的性能开销;在任务节点实现了数据缓存,保障了数据的本地性,并在Map节点增加了基于内存的块缓存机制,进一步提高训练集加载效率,以提高整体迭代效率。基于梯度下降算法的实验结果表明:MRI模型在并行迭代计算方面性能优于MapReduce模型。
关键词:mapreduce 并行计算 迭代计算 机器学习
单位:内蒙古工业大学信息工程学院; 内蒙古呼和浩特010080
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
Journal of Systems Science and Complexity Petroleum Science China World Economy Journal of Systems Science and Systems Engineering ComputerDIY玩脑者 Cellular Molecular Immunology International Journal of Computing International Journal of Automation Computing International Journal of Automation Computing Journal of Computer Science and Technology