摘要:计算机系统的容错是一个不容忽视的问题。近年来,随着系统结构的复杂性增加,半导体制造工艺的发展,线宽的降低以及集成度的提高,从用户桌面系统到分布式计算环境,乃至大规模并行计算机系统,功耗和可靠性问题都很突出。本文首先介绍了计算机系统可靠性和容错技术的基本概念、基本方法和基本思想,然后回顾了近些年来一些具有代表性的硬件故障检测技术和硬件故障恢复技术,其中重点介绍了针对大规模并行计算机系统提出的容错方法。本文还介绍了我们在先前的研究工作中提出的一种优化的故障恢复技术,称为容错并行算法。最后,总结了一些可能的研究方向。
关键词:大规模并行计算 容错技术 可靠性
单位:并行与分布处理国防科技重点实验室 湖南 长沙 410073
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
大观 贵州财经大学学报 贵州开放大学学报 桂林电子科技大学学报 桂林理工大学学报 贵州广播电视大学学报 贵州中医药大学学报 贵州大学学报·艺术版 贵州医科大学学报 贵州工业大学学报·社会科学版相关范文
大规模集成电路