摘要:我们设计与实现了一种高可用的高通量第一性原理材料计算任务管理系统。该系统支持第一性原理计算任务的自动化流程管理,包括计算任务动态管理、状态监控、容错、纠错处理等功能。尤其是实现了计算任务在自动流程中计算出错的情况下的纠错处理,能够有效的提高任务的成功率与高通量计算平台的可用性。在整个过程中不需要人工干预,实现整个计算自动流程化。该系统在结构推演的测试案例中进行了测试,如当能量不收敛时,能够自动调整相关计算参数,使能量计算能够收敛,取得了预期的效果。
关键词:高通量计算 高可用系统 matcloud 任务容错 纠错方法
单位:中国科学院大学; 北京100049; 中国科学院计算机网络信息中心; 北京100190
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社