线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

超级计算机作业运行稳定性分析

罗红兵 曹小林 曹立强 武林平 莫则尧 计算机工程与科学 2009年第11期

摘要:通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到10^5CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。

关键词:超级计算机并行作业稳定性

单位:北京应用物理与计算数学研究所高性能计算中心 北京100088

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注