文献详情 >国产SW26010-Pro处理器上3级BLAS函数众核并行优化收藏

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

作者：胡怡陈道琨杨超马文静刘芳芳宋超博孙强史俊达 HU Yi;CHEN Dao-Kun;YANG Chao;MA Wen-Jing;LIU Fang-Fang;SONG Chao-Bo;SUN Qiang;SHI Jun-Da

作者机构：中国科学院软件研究所并行软件与计算科学实验室北京100190 中国科学院大学北京100049 北京大学数学科学学院北京100871 国家并行计算机工程技术研究中心北京100190

基　　金：国家重点研发计划(2020YFB0204601)

出版物：《软件学报》 (Journal of Software)

年卷期：2024年第35卷第3期

页码：1569-1584页

摘要：BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%.

主题词：BLAS 3级 SW26010-Pro众核处理器直接内存访问远程内存访问浮点计算效率

学科分类：08[工学] 081201[081201] 0812[工学-测绘类]

核心收录：

D　O　I：10.13328/j.cnki.jos.006811

馆藏号：203126651...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：