看过本文的还看了

相关文献

该作者的其他文献

文献详情 >国产SW26010-Pro处理器上3级BLAS函数众核并行优化 收藏
国产SW26010-Pro处理器上3级BLAS函数众核并行优化

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

作     者:胡怡 陈道琨 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 HU Yi;CHEN Dao-Kun;YANG Chao;MA Wen-Jing;LIU Fang-Fang;SONG Chao-Bo;SUN Qiang;SHI Jun-Da

作者机构:中国科学院软件研究所并行软件与计算科学实验室北京100190 中国科学院大学北京100049 北京大学数学科学学院北京100871 国家并行计算机工程技术研究中心北京100190 

基  金:国家重点研发计划(2020YFB0204601) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2024年第35卷第3期

页      码:1569-1584页

摘      要:BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%.

主 题 词:BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率 

学科分类:08[工学] 081201[081201] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.006811

馆 藏 号:203126651...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分