首页 > 期刊 > 计算机工程与科学 > 资源管理系统中基于作业检查点的自动容错 【正文】
摘要:本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。
关键词:容错 资源管理
单位:国防科技大学计算机学院 湖南长沙410073
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
相关范文
北大期刊
¥624.00