看过本文的还看了

正在加载...

相关文献

正在加载...

该作者的其他文献

正在加载...
文献详情 >面向SW26010P的异形矩阵乘法众核并行优化技术研究 收藏
面向SW26010P的异形矩阵乘法众核并行优化技术研究

面向SW26010P的异形矩阵乘法众核并行优化技术研究

作     者:胡怡 陈道琨 杨超 HU Yi;CHEN Daokun;YANG Chao

作者机构:北京大学数学科学学院北京100871 北京大学长沙计算与数字经济研究院先进计算研究中心长沙410205 中国科学院软件研究所并行软件与计算科学实验室北京100190 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2025年第61卷第6期

页      码:150-163页

摘      要:矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。

主 题 词:异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3778/j.issn.1002-8331.2405-0142

馆 藏 号:203157972...

读者评论 与其他读者分享你的观点

正在加载...
用户名:未登录
我的评分 12345