面向SW26010P的异形矩阵乘法众核并行优化技术研究
作者机构:北京大学数学科学学院北京100871 北京大学长沙计算与数字经济研究院先进计算研究中心长沙410205 中国科学院软件研究所并行软件与计算科学实验室北京100190
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2025年第61卷第6期
页 码:150-163页
摘 要:矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。
主 题 词:异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类]
D O I:10.3778/j.issn.1002-8331.2405-0142
馆 藏 号:203157972...