计算机工程与科学_计算机工程与科学杂志社

期刊首页分期目录

片上多核的软件指令缓存技术研究

半导体工艺的进步使片上可以集成更多的处理核心，对于消耗较多面积和功耗的存储单元，如何有效地减小面积、降低功耗是片上多核研究的一个重要方向。软件指令缓存技术是降低指令存储复杂性，以及降低功耗的有效方式，本文深入对比了硬件Cache结构和软件指令缓存结构，并且详细分析了两款典型的软件指令缓存结构，总结了其特点和需要解决的关键...
高性能计算机系统MGH串行背板设计

高性能计算机和通信系统的互连传输速率超过10Gbps，信号频谱高端已达数10GHz（MGH）以上。本文分析了MGH背板的互连方式，讨论了高性能PCB板材和连接器的性能和应用能力。针对MGH背板高速率串行传输的信号完整性设计要求，提出采用小角度布线、反钻和双直径过孔的设计技术，并在工程设计中得到了成功应用。
高性能计算机的电源解耦研究

本文通过高性能计算机直流分布式供电系统的一个实际案例，分析了DC-DC变换器输入纹波电流导致母线电流振荡的机理，从而强调电源解耦在大型直流分布式供电系统中的重要性。文中论述了直流分布式供电系统母线解耦的原理和方法，推导出DC-DC变换器输入解耦电容的取值公式。
一种云计算架构的实现方法研究

本文提出了云计算机体系架构，对此架构下云应用的实现进行了研究，并通过一个模型云脑系统进行了验证。在云脑系统的实现方法中引入了云并行存储的技术，实现了文件的并行上传与并行下载，克服了以往存储服务器的负载不均衡及传输瓶颈等问题。
一种基于遗传算法的片上网络映射算法

片上网络NoC以其高可扩展性成为片上多核的互连解决方案。IP核到NoC结点的映射是片上网络设计的重要阶段。映射对芯片的性能和功耗有重要的影响。本文详细阐述了映射算法的研究现状，给出了映射算法的分类方法，并且分析各种方法的特点。最后，给出一种采用顺序表示的基于遗传算法的NoC映射算法。实验结果表明，该映射算法能够取得较好的准确性...
通用多核并行调试方法研究

多核体系结构加深了并行编程的难度。为开发高效的多核并行调试工具，本文分析了传统并行调试技术面临的问题，提出按并行粒度分级的调试方法，该方法可充分利用并行编程的经验，不断优化调试技术。
高性能处理系统的软硬件协同设计研究

x86是目前应用最广泛的复杂指令（CISC）系统，对大量非典型特性进行支持，从而花费大量硬件资源。而非典型特性的支持往往会影响典型功能的效率，不利于硬件资源的优化配置，限制处理系统性能的提升。本文首先分析了x86指令集及x86程序的固有特性，进而提出了一种基于RISC超标量处理系统核心的软硬件协同设计的实现方案。新处理系统的面积仅为...
CPU—GPGPU异构体系结构相关技术综述

随着GPU的发展，其计算能力和访存带宽都超过了CPU，在GPU上进行通用计算也变得越来越流行，这样就构成了CPU-GPGPU的新型异构体系结构。虽然这种新型体系结构表现出了强大的性能优势并受到了学术界和产业界的广泛关注，但如何更好地在这种结构上高效地编写和运行程序仍然存在很大的挑战。本文综述了针对这一体系结构现有的可编程性技术、可靠性...
高性能计算通信机制分析与研究

高性能计算机在各个领域得到了越来越广泛的应用，而这些系统的体系结构特征却有着巨大的差异。IC工艺的进步使得通信机制逐渐超过计算单元，成为了影响系统性能参数、功耗和系统规模的主要因素，使得高性能计算机的设计从以计算能力为主向以数据传输和通信能力为主，并在系统层次上产生了深远的影响。由于通信机制越来越难设计，所以通信往往成...
DMA控制器的一种硬件验证方法

在微处理器或SOC芯片设计过程中，DMA控制器的硬件仿真验证是难以解决的问题之一，因为DMA控制器与包括微处理器核和内存控制器在内的几乎所有部件都有数据通信，如将所有部件集成后进行仿真测试，则一旦发现错误后，定位错误会非常困难。本文为此提出了一种简化测试模型和验证方法，可以有效解决上述问题。
一种WFA仲裁模式优化算法

本文研究了WFA仲裁算法，WFA采用的固定轮转优先级的仲裁算法，没有考虑到各端口队列的长度和消息包的缓急情况。本文针对WFA算法存在的这种不足提出了一种改进算法，该算法易于实现、仲裁更公平，通过软件建模的方式进行了模拟，模拟结果表明，优化具有较好的效果。
多核处理器电压调节模块的研究与实现

随着计算机技术的飞速发展，多核处理器已得到广泛的应用。本文详细介绍了某高性能计算机中多核处理器的电压调节模块的实现方法，并对主电路、输出滤波器、反馈补偿电路等部分进行了详细设计和参数计算。应用结果表明，该电压调节模块完全满足多核处理器的供电要求。
神威3000A高可用海量存储系统

神威3000A海量存储系统采用基于文件分条的网络数据冗余方法，支持网络RAID1和RAID5冗余模式，能够对存储服务器及盘阵故障在线容错，是一个高可用的分布式存储系统。
面向数据驱动处理器阵列的自动综合

本文提出了一种数据驱动处理器阵列结构，该结构能有效平衡存储和计算，适合用于在FPGA上实现高性能的算法加速，同时提出了一个面向该结构的自动综合框架，通过该框架可以将常规循环有效地映射到数据驱动处理器阵列上。实验结果表明了该自动综合框架的有效性，且生成的设计性能优于通用处理器。
使用GPU加速分子动力学模拟中的非绑定力计算

在分子动力学模拟（MD）中，对非绑定力的计算需要花费大量的时间。本文提出了基于CUDA和Brook＋的两种双精度算法，分别在NVIDIA和AMD两款主流GPU上实现了非绑定力的计算，借助GPU的计算能力加速了整个MD程序。算法对MD进行了任务分割，采用区域分解的方法将非绑定力的计算映射到GPU的计算核心上，同时针对两款GPU的各自特点提出了线程块内共享...
InfiniBand网络胖树路由算法分析

胖树拓扑结构是搭建集群和HPC比较流行的结构，它具有无阻塞传输和对分带宽的优点。本文介绍了InfiniBand子网管理和胖树结构，分析了胖树路由算法的计算过程和相关改进。
实时高清H．264编码中CAVLC的流式实现

CAVLC是H．264中熵编码的一种重要实现方式，具有可挖掘的数据级并行特征，但同时具有较强的串行特点。本文分析了CAVLC的程序特征，提出了CAVLC的流式实现方法，并在流处理器STORM-1上进行了实现。实验结果表明本方法能够满足实时高清H．264编码的性能需求。
一种带偏置的基于相关性分析的Cache一致性协议验证方法

Cache一致性协议作为CC-NUMA系统的硬件基础，在CC-NUMA系统的设计过程中占有举足轻重的地位。对于复杂的CC-NUMA系统，由于其Cache一致性协议十分复杂，通常难以进行形式化验证，而常规的伪随机模拟又存在验证效率低下的问题。本文提出了一种对复杂CC-NUMA系统中Cache一致性协议进行模拟验证的方法。该方法通过对验证覆盖目标进行相关性分析，...
基于GPU的LARED—P算法加速

GPU拥有几百GFlops甚至上TFlops的浮点计算能力，将GPU应用于粒子模拟，可有效提高大规模粒子模拟的速度，降低计算成本。本文利用GPU加速三维激光等离子体模拟算法LARED-P，提出了基于CPU＋GPU的任务划分、GPU上任务分解、大规模计算核心的分解方法，结合使用了寄存器、纹理内存对算法进行加速。在双精度条件下，移植后的算法在工作频率为1．44...
基于FPGA的细粒度并行K—means算法加速器的设计与实现

本文在深入分析K-means算法计算特征的基础上，基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略，实现了处理单元间的负载平衡，采用数据驱动的流水线隐藏片外存储访问，设计了一种基于脉动阵列结构的主从多PE并行计算阵列，并在单片FPGA（xC5VLX330）上成功集成了4个PE。实验结果表明，我...
基于CUDA平台的遗传算法并行实现研究

CUDA技术方便程序员在GPU上进行通用计算，但并没有提供随机数产生的应用接口。为此，本文提出并实现在CUDA开发平台上并行产生均匀随机数算法，测试证明算法可行。在此基础上优化基本遗传算法，并在GPU上并行实现其所有操作，提高其运行速度和准确度；分析了种群大小和遗传代数对此算法加速比及准确度的影响，并与MAT—LAB工具箱进行比较。实验...
gFDT：用于数据网格的高速数据传输模块

数据网格中的数据具有分布的、异构的和海量的特点。这使得数据的复制和迁移既不同于局域网内的数据传输特性，又有别于广域网上的数据传输要求。因此，我们希望针对数据网格对数据传输的需求，构建一个可以与数据网格良好整合的传输模块。本文在分析了现有数据网格中数据及其传输的特点以后，提出并实现了一个用于数据网格环境的可同时支持多种...
高可靠锁相环设计技术研究

单粒子瞬变（SET）现象对高性能计算的影响日益严重，本文对高性能微处理器中锁相（PLL）的RHBD（Radiation Hardened-By-Design）加固方法进行了分析和总结，从系统级和电路级两个方面对PIA。的SET加固方法进行了分类研究。分析结果表明，设计加固方法可以在较高的层次上考虑加固问题，降低了工艺依赖性，可以有效地提高PLL可靠性。
多输出外部反馈型LFSR均匀分布随机数生成器的分析与设计

本文系统地分析了多输出外部反馈LFSR方法产生均匀分布随机数的工作原理、变换矩阵的特点、产生随机数的周期以及LFSR的级数选择等问题，并提出了基于多输出外部反馈LFSR方法设计均匀分布随机数生成器的具体步骤。本文在Xilinx Vertex IV FPGA上设计实现的23级16位输出的LFSR型均匀分布随机数生成器仅消耗了36个Slices资源和23个Flip Flops资源...
一种Runahead执行的改进算法

Runahead执行技术能够显著地提高计算机系统的存储级并行，而无需对处理器结构做出较大改动。但Runahead执行处理器要比传统处理器多执行很多指令，最多是正常执行指令数的三倍以上，大大增加了处理器的功耗。本文通过分析发现Runahead执行在预执行阶段会执行大量的无效指令，据此提出一种减少无效指令的方法来提高Runahead执行处理器的效率。通...
NoC低功耗技术研究综述

当前在高性能SoC设计中，功耗约束已成为NoC设计所面临的重要问题。本文着重阐述了NoC低功耗优化技术的相关内容，在分析现有NoC模拟器和功耗模型的基础上，从物理逻辑设计、软件编译优化、网络拓扑结构低功耗映射等方面评述了当前NoC低功耗关键技术。最后，对未来NoC低功耗技术研究的方向做出了预测。
Jacobi和Laplace算法在GPU平台上的设计与实现

随着半导体工艺的发展，GPU的浮点计算能力迅速提高。如何把GPU处理技术应用到非图形计算领域成为体系结构以及高性能计算领域的热点研究问题。Jacobi和Laplace是科学计算领域常用的计算核心。本文基于AMD的流处理GPU平台设计并实现了这两个算法，相对于CPU平台取得了很好的加速效果。
面向Cache优化的向量指令集设计与测评

为微处理器扩展向量指令集是提升现代微处理器性能的一种可行手段，然而传统向量指令对存储系统的访问表现出较差的局部性，因此难以与现代微处理器设计中广泛使用的Cache很好的结合。本文以优化Cache性能为目标，对传统向量指令集进行改造，提出了COV（Cache Optimized Vector Instruction Set）向量指令集，并以OpenRISC1200为平台，对该指令...
一种面向多核处理器粗粒度的应用级Cache划分方法

Cache划分技术是解决共享Cache访问冲突的重要方法，但是已有的Cache划分技术具有开销高、Cache划分时机难以确定的缺点。本文提出了面向应用的Cache划分框架（ACP）。ACP的优点是能够使用程序员提供的应用最外层循环的边界信息，更好地获取应用的失效率信息，因此Cache划分算法具有更高的精度，从而降低了划分的频率，进而提高系统性能。实验结...
多核处理器Cache一致性协议关键技术研究

多核处理器规模的不断扩大和核间通信机制的日益复杂，使得Cache一致性维护变得更加困难。本文从多核处理器Cache一致性问题的产生背景出发，分析监听协议、目录协议、Token协议和Hammer协议的实现机制以及在多核环境中的优缺点，分别从一致性协议与片上互连结构协同设计、面向低功耗应用的协议优化策略、Cache一致性协议验证及容错机制等角度考...