文献检索-宁波市创意产业特色资源库

基于FPGA的高精度科学计算加速器研究: 收藏
分享
引用; 《计算机学报》2012年第1期35卷 112-122页; 作者：雷元武窦勇郭松国防科学技术大学计算机学院长沙410073; 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基...; 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗.; 来源：详细信息评论

可选主元LU分解流水线算法设计与FPGA实现: 收藏
分享
引用; 《高技术通讯》2009年第5期19卷 511-518页; 作者：牛新周杰窦勇雷元武国防科技大学计算机学院长沙410073; 提出了一种可以进行列主元选取的细粒度LU分解流水线算法并在现场编程门阵列(FPGA)上得到了实现。该算法可以在进行列主元选取的同时,充分利用数据的重用性,以减少数据读写次数。对其中的关键运算实现了细粒度全流水,提高了分解性能。与...; 提出了一种可以进行列主元选取的细粒度LU分解流水线算法并在现场编程门阵列(FPGA)上得到了实现。该算法可以在进行列主元选取的同时,充分利用数据的重用性,以减少数据读写次数。对其中的关键运算实现了细粒度全流水,提高了分解性能。与Celeron(R) 3.07GHz通用处理器主机相比可以得到平均6到7倍的加速比。与其他在FP-GA上实现的LU分解算法相比,该算法在占用相对较少资源和保持高分解效率的前提下提高了计算的精确度和稳定性。; 来源：详细信息评论

DSP芯片中的高能效FFT加速器: 收藏
分享
引用; 《计算机研究与发展》2016年第7期53卷 1438-1446页; 作者：雷元武陈小文彭元喜国防科学技术大学计算机学院长沙410073; 快速傅里叶变换(fast Fourier transform,FFT)是数字信号处理(digital signal processing,DSP)领域中最耗时的核心算法,该算法的计算性能和计算效率将影响整个应用的执行效率.因此,在DSP芯片上设计实现了一个基于矩阵转置操作的高能效...; 快速傅里叶变换(fast Fourier transform,FFT)是数字信号处理(digital signal processing,DSP)领域中最耗时的核心算法,该算法的计算性能和计算效率将影响整个应用的执行效率.因此,在DSP芯片上设计实现了一个基于矩阵转置操作的高能效可变长度FFT加速器,采用多种并行策略开发批量小规模FFT算法与大规模Cooley-Tukey FFT算法中指令级和任务级并行.设计"乒乓"多体数据存储器,重叠数据搬移和FFT计算之间的开销,提高FFT加速器计算效率.并基于此存储器,提出基于基本块的快速矩阵转置算法,从而避免对数据矩阵的列访问;提出混合旋转因子产生策略,结合查表和基于CORDIC算法在线计算方式,最大限度降低旋转因子产生的硬件开销.实验结果表明:FFT加速器原型的峰值能效为146GFLOPs/W,相比Intel Xeon CPU上的多线程FFTW实现,取得2个数量级的能效提升.; 来源：详细信息评论

定制VLIW结构实现四精度浮点基本函数: 收藏
分享
引用; 《电子学报》2012年第9期40卷 1715-1722页; 作者：雷元武窦勇倪时策周杰国防科学技术大学计算机学院湖南长沙410073; 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算...; 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率.; 来源：详细信息评论

支持多种传输模式的双通路串行RapidIO设计与实现: 收藏
分享
引用; 《计算机工程与科学》2019年第2期41卷 233-239页; 作者：郭欣童雷元武郭阳国防科技大学计算机学院湖南长沙410073; 传统的串行RapidIO2.1接口支持3种通道模式(1×、2×、4×)。在2×或1×模式下,4条物理链路只有2条或1条在进行数据传输,其余链路被闲置,造成带宽浪费;另外,一个RapidIO接口只能与一个目的端互连。基于传统的串行Ra...; 传统的串行RapidIO2.1接口支持3种通道模式(1×、2×、4×)。在2×或1×模式下,4条物理链路只有2条或1条在进行数据传输,其余链路被闲置,造成带宽浪费;另外,一个RapidIO接口只能与一个目的端互连。基于传统的串行RapidIO2.1接口协议,设计了一种支持双通路传输的串行RapidIO接口,通过PCS层的可配置交叉开关共实现14种传输模式,双通路模式下可同时和两个串行RapidIO接口互连。双通路RapidIO提高了RapidIO系统互连的灵活性和传输带宽。实验结果表明,在1×或2×模式下,双通路传输的传输带宽是传统设计的两倍;4×模式下,双通路RapidIO的有效带宽与传统单通路RapidIO的相同。; 来源：详细信息评论

基于高精度乘累加的LU分解加速器的设计: 收藏
分享
引用; 《计算机工程与科学》2009年第11期31卷 33-36页; 作者：雷元武窦勇郭松李鑫雷国庆国防科技大学计算机学院湖南长沙410073; 本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验...; 本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验结果表明,和高精度软件库QD或MPFR相比,4PE结构的LU分解加速器能够取得100倍的加速比,同时取得90多位的计算精度。; 来源：详细信息评论

基于FPGA的细粒度并行K-means算法加速器的设计与实现: 收藏
分享
引用; 《计算机工程与科学》2009年第A1期31卷 64-67页; 作者：倪时策窦勇雷元武赵建勋国防科技大学计算机学院湖南长沙410073 装甲兵工程学院北京100072; 本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基...; 本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基于脉动阵列结构的主从多PE并行计算阵列,并在单片FPGA(XC5VLX330)上成功集成了4个PE。实验结果表明,我们提出的K-means算法加速器结构具备良好的可扩展性。通过实验测试,我们的实现方案相对于Pentium 4 2.66 GHz单处理器程序达到了15倍的加速比。; 来源：详细信息评论

一种基于SRT-8算法的SIMD浮点除法器的设计与实现: 收藏
分享
引用; 《计算机工程与科学》2014年第5期36卷 797-803页; 作者：邓子椰陈书明彭元喜雷元武国防科学技术大学计算机学院湖南长沙410073; 在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT-8除法算法,设计一个SIMD结构的IEEE-754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT-...; 在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT-8除法算法,设计一个SIMD结构的IEEE-754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT-8迭代除法结构,提出商选择和余数加法的并行处理,并采用商数字存储技术降低迭代除法的计算延时,提高频率。同时,采用复用策略减少硬件资源开销,节省面积。实验表明,在40nm工艺下,本设计综合cell面积为18 601.968 1μm2,运行频率可达2.5GHz,相对传统的SRT-8实现关键延迟减少了23.81%。; 来源：详细信息评论

基于Goldschmidt算法的高性能双精度浮点除法器设计: 收藏
分享
引用; 《计算机应用》2015年第7期35卷 1854-1857,1887页; 作者：何婷婷彭元喜雷元武国防科学技术大学计算机学院长沙410073; 针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法...; 针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法;其次,采用了较节约面积的双查找表法确定迭代初值,迭代单元采用并行乘法器结构以提高迭代速度;最后,合理划分流水站,控制迭代过程使浮点除法可以流水执行,从而进一步提高除法器运算速率。实验结果表明,在40 nm工艺下,双精度浮点除法器采用14位迭代初值流水结构,其综合cell面积为84 902.261 8μm2,运行频率可达2.2 GHz;相比采用8位迭代初值流水结构运算速度提高了32.73%,面积增加了5.05%;计算一条双精度浮点除法的延迟为12个时钟周期,流水执行时,单条除法平均延迟为3个时钟周期,与其他处理器中基于SRT算法实现的双精度浮点除法器相比,数据吞吐率提高了3~7倍;与其他处理器中基于Goldschmidt算法实现的双精度浮点除法器相比,数据吞吐率提高了2~3倍。; 来源：详细信息评论

一种自主设计的面向E级高性能计算的异构融合加速器: 收藏
分享
引用; 《计算机研究与发展》2021年第6期58卷 1234-1237页; 作者：刘胜卢凯郭阳刘仲陈海燕雷元武孙海燕杨乾明陈小文陈胜刚刘必慰鲁建壮国防科技大学计算机学院长沙410073; 高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达...; 高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片.; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：