看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种微指令序列调度数据流的星载卷积神经网络FPGA加速器 收藏
一种微指令序列调度数据流的星载卷积神经网络FPGA加速器

一种微指令序列调度数据流的星载卷积神经网络FPGA加速器

作     者:郭子博 刘凯 胡航天 李奕铎 璩泽旭 GUO Zi-Bo;LIU Kai;HU Hang-Tian;LI Yi-Duo;QU Ze-Xu

作者机构:西安电子科技大学计算机科学与技术学院西安710000 中国空间技术研究院西安分院西安710000 

基  金:国家自然科学基金(62171342,61850410523) 空间测控通信创新探索基金(201701B)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2022年第45卷第10期

页      码:2047-2064页

摘      要:卷积神经网络(Convolutional Neural Network,CNN)是目前主流视觉算法不可或缺的关键部分.为提高CNN模型推理速度,学界提出了众多异构加速方法以满足不同场景下的多元加速需求.但如何在资源与能耗受限的在轨卫星上稳定高效地加速CNN仍是极具挑战的课题.为此,本文通过软硬件协同设计,着力优化微指令编码、指令级并行和运算级并行3个加速器设计的关键部分,在星上常见的Xilinx VX690T FPGA芯片上设计实现了一种微指令序列调度数据流的CNN加速器.在软件层面,本文提出一种可扩展的微指令编码格式及相应的编译方法.通过卷积循环分块和算子融合策略实现图级别优化,生成加速器可执行的微指令序列.在硬件层面,本文设计实现了一个由微控制器与逻辑运算器组成的RTL级CNN加速器.微控制器通过粗粒度流水线实现各类指令的并行执行.逻辑运算器通过DSP48E1计算资源级联所构建的计算阵列实现卷积算子的细粒度并行运算.实验结果表明,加速器设计功耗10.68 W,在加速YOLOV3Tiny算法时,峰值吞吐率(Runtime Max Throughput,RMT)达到378.63 GOP/s,计算资源利用效率(MAC Efficiency,ME)达到91.5%.相较典型GPU加速方法,本文的加速器有14倍能效提升.相较同类FPGA加速器,ME有6.9%以上的提升.

主 题 词:卷积神经网络 微指令序列 现场可编程逻辑门阵列 遥感目标检测 微处理器设计 

学科分类:08[工学] 081201[081201] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2022.02047

馆 藏 号:203114839...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分