摘要:高性能计算机不断增长的规模和复杂性使得可靠性成为影响高性能计算机系统可用性的关键因素,系统互连网络是高性能计算机的重要组成部分,其可靠性是高性能计算机系统设计必须考虑的重要问题.针对高性能计算机系统互连网络可能出现的故障,提出一种基于NIC实现的RDMA可靠传输协议,给出了一种通用的设计实现方案,并对该方案的几种具体优化设计实现方法进行了讨论.提出的可靠传输协议及实现方案能容忍系统互连网络可能出现的多种网络故障,并能尽量减少实现可靠传输所带来的额外开销.实验结果表明,所提出的RDMA可靠传输的实际测试性能与无连接RDMA传输相当.
关键词:rdma 可靠性 网络接口 可靠传输协议
单位:国防科学技术大学计算机学院 湖南长沙410073
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社