计算机工程与科学_计算机工程与科学杂志社

期刊首页分期目录

一种自适应负载的I／O调度算法

I／O调度算法对磁盘阵列（RAID）性能具有至关重要的影响。虽然已有很多典型的I／O调度算法在一定负载情况下可获得较好的性能，但很难有哪一种算法在各种负载情况下均能获得很好的性能。本文提出了一种智能RAID控制模型，结合CA．5决策树和AdaBoost算法实现负载自动分类，根据负载变化和性能反馈情况动态调整I／O调度策略，实现面向应用需求的...
激励简化与模拟加速研究：Rasbora技术

模拟技术是进行计算机体系结构设计的重要方法。循环语句形成了SCMD的程序结构，使得少量源代码产生大量的Trace和超长的运行时间。本文从源程序的这一特征出发，构建基于循环缩减的Trace简化和模拟加速方法——Rasbora。Rasbora在程序源代码中添加指令，有选择地记录循环过程中的Trace内容，从而有效地简化Trace；并且在模拟过程中，识别循环体...
基于加权路径的指令调度算法

随着线延迟的逐渐增加，指令调度技术作为一种可以有效减少处理器片上通信的技术日益重要。本文介绍一种分片式处理器结构上基于加权路径的指令调度算法，该算法利用已经放置好的指令——锚指令信息精确计算路径长度，再用指令所在路径长度作为权值对指令进行调度。实验结果表明，本算法实现的调度器IPC比已有的两种TRIPS调度算法的IPC分别提高...
优化的JPEG2000算术编码器结构

各种并行位平面编码算法极大提高了上下文／符号数据对的产生速度，与此同时，算术编码算法的串行本质却严重限制了这些数据对的编码速度。因此，算术编码器（AE）已经成为JPEG2000系统的瓶颈问题。本文分析了现存各种算术编码器结构的缺陷，并提出了一种优化的单输入三级流水线结构。FPGA实现结果表明，本文结构以最小的硬件代价（1100ALUTs和3...
面向IO服务器的高性能存储器的实现与优化

高性能计算机性能增长迅速，但作为主要存储设备的机械式硬盘速度提升缓慢，严重影响了高性能服务器的总体性能。基于Flash的固态盘虽然可以解决读性能问题，但在使用寿命和随机写性能方面存在不足。本文介绍了一种基于RAM的高性能存储器实现技术。设计中通过精简驱动层次、多级流水、中断合并等技术，将IO访问路径上的软件开销降低，从而充分发...
面向多核NUCA共享数据竞争问题的Bank一致性技术

非一致Cache体系结构（NUCA）几乎已经成为未来片上大容量cache的发展方向。多核处理器的NUCA结构中，多个处理器核对共享数据的竞争访问，可能导致数据经常处于中部的cacheBank，增加NucA的访问延迟。本文提出支持数据副本的Bank一致性技术，通过有选择地在NUCA中为访问的处理器核创建不同的数据副本，Bank一致性技术能够缓解多核处理器对共享...
基于Infiniband的大规模并行系统互连网络的建模与仿真

互连网络的数学建模在大规模并行系统的研究和设计中有重要的作用，而Infiniband网络是一种广泛运用于高性能计算机系统的互连网络标准。本文对基于Infiniband的互连网络进行了分析，建立了网络延时模型，并使用该模型分析了2D-mesh和m-port n-tree两种拓扑的互连网络特性。最后通过仿真对分析模型进行了测试和评价，仿真结果表明，该模型能够合...
高性能处理系统中自修改代码的高效检测技术

在主流通用处理系统中，超标量机制及高速缓存使得自修改代码（SMC）成为一种需要特殊处理的情况，为了继续支持使用自修改代码的程序并兼容原有程序，在处理系统设计中需要对SMC的情况进行支持。本文分析并对比了多种程序的SMC行为及解决方案，设计了一种利用FIFO队列在流水线外检测SMC的方案，避免了对主流水线的干扰；并通过复用访存通路来检...
基于高精度乘累加的LU分解加速器的设计

本文首先分析LU分解中舍入误差的积累过程，建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度；然后，根据定点加法的简单、快速、无精度损失的特点，设计高精度乘累加器（HPMAcc），并基于此实现一个细粒度并行LU分解加速器。实验结果表明，和高精度软件库QD或MPFR相比，4PE结构的LU分解加速器能够取得100倍的加速比，同时取得90多位...
曙光5000芯片组系统级功能验证平台

曙光5000芯片组是曙光5000计算单元中的系统控制器，它通过HT接口连接两颗CPU并提供高速网络通信能力。为了确保曙光5000芯片组的功能正确性，我们为其设计了系统级功能验证平台SVP。SVP采用分层结构对系统进行建模，通过对本地计算单元的系统软件行为、硬件平台功能以及远程计算单元的网络行为进行模拟，提供了接近真实系统的验证环境。在曙光5...
可配置流处理器核心级指令设计及相关编译技术研究

针对目前微处理器面对通用性、高性能、功耗效率的矛盾，我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术，其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集，从而降低指令集硬件资源的需求。
多核构架下OpenMP多线程应用运行性能的研究

多核平台下，OpenMP线程在核间的动态迁移在一定程度上会导致应用程序性能的下降，如果将线程绑定在固定的核上运行，使其不再迁移，这种方法将有可能提升应用程序性能，达到充分利用多核平台的计算能力的目的。本文将介绍如何使用主流的编译器绑定接口以及Linux内核API的方式实现OpenMP线程与核之间的绑定，使用盯REAMBenchmark和NPB在上海超级...
并行存储系统的功耗优化

功耗问题已经成为高性能计算机系统设计的重要问题。并行存储系统是高性能计算机系统的重要组成部分，降低其功耗对于降低整个并行系统功耗具有重要意义。并行存储系统由存储结点组成，降低存储结点功耗是降低并行存储系统功耗的重要部分。本文针对存储结点的处理器提出了功耗优化方法，根据利用率信息调节处理器电压／频率，并通过元数据服务器...
高性能MD5算法IP核的设计空间探索与分析

本文以BluespecSystemVerilog高层硬件描述语言为工具，对MD5核心算法进行了设计空间探索，实现了全展开组合逻辑、全展开流水线、循环迭代、流水化的循环迭代四种结构，测试和分析了各种结构的性能和面积指标，完整掌握了MD5IP核的设计空间的各项参数。
PCIExpress中2．5Gbps高速SerDes的设计与实现

PCIExpress是当前广泛应用的高速串行传输标准，其V1．0版本提供2．5Gbps的高速传输带宽。对于高速串行传输而言，精确的发送定时与接收同步是其关键技术。本文在详细分析PCIExpress物理层技术的基础上，特别针对串行接收端的数据时钟恢复CDR技术展开研究，采用基于锁相环结构的数据时钟恢复技术设计了一款2．5Gbps速率的高速物理层电路，并基于...
资源管理系统中基于作业检查点的自动容错

本文提出了在资源管理系统中基于作业检查点实现自动容错支持，深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点／恢复，详细介绍了实现中的关键技术难题。分析与测试表明，检查点与恢复执行功能正确，并能有效缩短大规模作业成功运行所需的时间。
事务存储中的一种自适应冲突检测算法

事务存储被认为是极具前景的多核处理器并行编程的手段，但存在开销过大的问题。采用BloomFilter对事务阎访问共享变量进行冲突检测，能够有效地降低开销，但其存在误判会导致不必要的事务作废，因此要尽可能减少。简要介绍了BloomFilter和事务存储，提出了一种事务存储的自适应冲突检测算法ACDA，根据事务读写集合大小自适应地调整BloomFilter...
一种面向对象的数据管理模型

SWGFS是一种高可用的面向对象文件系统，目前已经在多个高性能集群系统中得到应用。与其它分布式存储系统类似，SWGFS也面临着数据管理工具短缺、数据管理效率低的困难，为此必须使用信息生命周期管理的概念。本文提出了一种面向对象的数据管理模型，这一模型为SWGFS引入了管理对象，并由其根据预先定义的管理策略直接操作文件对象，从而实现高...
基于计算缓存方法的分子动力学程序性能优化

分子动力学数值模拟程序在现代高性能计算机上的计算效率往往很低，只能发挥系统峰值性能的几个百分点。本文对并行分子动力学程序PMD3D在联想深腾6800超级计算机上进行性能优化。通过性能分析，我们发现粒子相互作用力计算中相互关联的浮点运算严重影响了处理器的指令级并行效率，为此我们应用计算缓存的方法，将大量不规则的浮点计算进行缓存...
点源2．5维电场的h-自适应有限元数值模拟

基于Galerkin法推导了点源2．5维电场的变分问题，得到了对应的有限元方程组。首先对求解区域采用较粗的剖分，然后利用Z-Z方法对计算结果进行后验误差估计，并根据误差平均分配策略对初始网格进行局部自适应加密，从而以较少的自由度得到较高精度的数值结果，最后分别对均匀和非均匀地质体中点源2．5维电场进行了自适应有限元模拟数值。数值结...
校园网格环境下软件License调度算法及策略研究

应用软件License是昂贵的计算资源，校园网格是分布、共享的应用环境，在该环境下研究License的管理有着重要的意义。本文提出了支持License管理策略的校园网格管理系统体系结构，提出了基于角色和等待时间的网格作业动态优先级计算方法，提出了基于资源稀缺性和负载的License预留策略及剥夺策略，并在此基础上提出了基于动态优先级和集群负载的...
并行作业容错自动调度环境设计

大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据，有必要设计一个容错环境，自动调度加载故障程序。基于并行作业和系统提供的checkpoint／restart功能，本文设计了一个用户级的并行作业容错自动调度环境，包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明，并行作业容错自动调度环境保证...
超级计算机作业运行稳定性分析

通过作业日志分析和考核实验方式，对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明，并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降；当并行作业的计算量达到10^5CPU小时量级，超过20％的作业会因系统故障而中止。考核实验结果表明，使用数千CPU的并行作业很容易受到多种因素的干扰而中止，很难持续运...
多群粒子输运问题在多核集群系统上的混合并行计算

本文分析了非结构网格多群粒子输运Sn方程求解的并行性，拟合多核机群系统的特点，设计了MPI／OpenMP混合程序，针对空间网格点采用区域分解划分，计算结点间基于消息传递MPI编程，每个MPI计算进程在计算过程中碰到关于能群的计算，就生成多个OpenMP线程，计算结点内针对能群进行多线程并行计算。数值测试结果表明，非结构网格上的粒子输运问题...
使用GPU加速BLAST算法初探

应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包，其处理速度受到串行化执行和磁盘I／O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点，并选定关键热点模块，应用CUDA编程技术对其进行并行化改造。对比实验结果表明，对于平均序列长度较大的序...
高性能计算中处理器功耗特征的评测与分析

高性能计算系统的系统结构和应用模式与单机系统或商用机群服务器系统都有很大的不同，掌握功耗特征是提高能效的前提。本文将支撑功耗管理的低功耗技术分为动态资源休眠和动态速率调节两类，并就处理器的这两类机制在高性能计算中的应用进行评测，验证了功耗管理在高性能计算中的有效性，量化分析了处理器功耗特征，指出了当前管理方案的不足及...
高超声速流动CFD并行计算研究

并行计算是CFD技术发展的必然趋势。本文从高超声速流动的特点出发，研究多分区结构网格下CFD并行计算方法，重点解决了区域之间流场信息的数据交换问题和边界处理问题，以保证流场的连续性。本文采用有限体积法求解高超声速流场，空间离散格式为Osher-Chakravarthy TVD格式，利用MPI消息传递模式完成数据交换，在自主搭建的PC集群上进行算例考...
求解Maxwell线性棱元鞍点系统的并行Uzawa算法

本文针对一类MaxweU方程组鞍点问题的第一类Nedelec线性棱元离散系统，设计了一种基于节点辅助空间预条件子的并行Uzawa算法（HX-Uzawa-p）。数值实验结果表明，不论是对光滑系数还是对有无浮动予区域及有无内交叉点的跳系数情形，我们所设计的并行算法HX-Uzawa-p的迭代次数都基本不依赖于网格规模及系数跳幅，且具有很好的并行可扩展性。
能耗并行加速比：高性能计算系统综合性能的有效度量

随着并行系统规模的扩大，高性能计算系统运行时消耗的能耗也在急剧增长，过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下，能耗问题受到了前所未有的关注。因此，设计和研究高性能计算系统，需要在考虑高计算性能的同时兼顾系统低能耗的要求，这为高性能计算系统的度量模型提出了新的挑战。于是，大规模并行系统逐渐从“...
大规模数值模拟数据的多分辨组织

大规模数值模拟数据对可视化分析提出了挑战，本文研究如何将大规模数据组织成多分辨的形式以提高大规模数据可视化的交互性能。鉴于大规模数值模拟剖分的数据块粒度与可视化分析优化的I／O粒度不匹配，本文提出了I／O优化的多分辨数据组织算法，并实现了多层存储与多级存储两种存储方案。使用实际的大规模数据进行了测试并取得了很好的效果。