看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向分布式卷积神经训练网络的FPGA加速器设计 收藏
面向分布式卷积神经训练网络的FPGA加速器设计

面向分布式卷积神经训练网络的FPGA加速器设计

作     者:张小军 王俊英 王晓静 韩钦 王正荣 张德学 ZHANG Xiaojun;WANG Junying;WANG Xiaojing;HAN Qin;WANG Zhengrong;ZHANG Dexue

作者机构:山东科技大学电子信息工程学院山东青岛266590 高效能服务器和存储技术国家重点实验室济南250101 

基  金:山东省自然科学基金联合基金项目(ZR2019LZH001) 山东省本科教学改革项目(M2020149) 山东省研究生案例库项目(SDYAL19081) 

出 版 物:《实验室研究与探索》 (Research and Exploration In Laboratory)

年 卷 期:2023年第42卷第9期

页      码:100-104,113页

摘      要:为提高卷积神经网络(CNN)训练速度,设计一种基于FPGA的分布式CNN加速器。采用数据并行分布式架构,通过多FPGA并行计算提高CNN的训练速度。分析各层数据依赖性,调整矩阵卷积运算顺序,实现层内和层间的细粒度流水线。针对卷积运算消耗过多存储资源,设计一种数据拼接存储结构,有效节省存储资源。为实现多FPGA互联,采用40G光纤传输数据,同时优化Ring-Allreduce传输模式,减少板间数据传递的延迟。针对Mnist数据集,选用16 bit定点量化,不同层间选用不同量化方案,减小梯度下降误差。测试表明,基于Intel Arria 10硬件平台,设计的2 FPGA和3 FPGA架构相对于单FPGA可分别实现1.99、2.98的加速比。

主 题 词:分布式 现场可编程门阵列 卷积神经网络训练 定点量化 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.19927/j.cnki.syyt.2023.09.021

馆 藏 号:203124624...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分