看过本文的还看了

相关文献

该作者的其他文献

文献详情 >针对SW26010众核处理器的单精度矩阵乘算法 收藏
针对SW26010众核处理器的单精度矩阵乘算法

针对SW26010众核处理器的单精度矩阵乘算法

作     者:武铮 许乐 安虹 金旭 文可 WU Zheng;XU Le;AN Hong;JIN Xu;WEN Ke

作者机构:中国科学技术大学计算机科学与技术学院合肥230027 

基  金:国家重点研究开发项目(2018YFB0204102)资助 

出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)

年 卷 期:2023年第44卷第4期

页      码:673-681页

摘      要:矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%.

主 题 词:众核处理器 矩阵乘 计算机系统结构 高性能计算 并行算法 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.20009/j.cnki.21-1106/TP.2021-0621

馆 藏 号:203121123...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分