线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

资源管理系统中基于作业检查点的自动容错

曹宏嘉 卢宇彤 谢旻 计算机工程与科学 2009年第11期

摘要:本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。

关键词:容错资源管理

单位:国防科技大学计算机学院 湖南长沙410073

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注