看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向稀疏卷积神经网络的GPU性能优化方法 收藏
面向稀疏卷积神经网络的GPU性能优化方法

面向稀疏卷积神经网络的GPU性能优化方法

作     者:董晓 刘雷 李晶 冯晓兵 DONG Xiao;LIU Lei;LI Jing;FENG Xiao-Bing

作者机构:计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院大学北京100190 

基  金:国家自然科学基金(61521092) 国家重点研发计划(2017YFB1003103) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2020年第31卷第9期

页      码:2944-2964页

摘      要:近些年来,深度卷积神经网络在多项任务中展现了惊人的能力,并已经被用在物体检测、自动驾驶和机器翻译等众多应用中.但这些模型往往参数规模庞大,并带来了沉重的计算负担.神经网络的模型剪枝技术能够识别并删除模型中对精度影响较小的参数,从而降低模型的参数数目和理论计算量,给模型的高效执行提供了机会.然而,剪枝后的稀疏模型却难以在GPU上实现高效执行,其性能甚至差于剪枝前的稠密模型,导致模型剪枝难以带来真正的执行性能收益.提出一种稀疏感知的代码生成方法,能够生成高效的稀疏卷积GPU程序.首先为卷积算子设计了算子模板,并结合GPU的特点对模板代码进行了多种优化.算子模板中的源代码经过编译和分析被转换为算子中间表示模板,设计了一种稀疏代码生成方法,能够结合剪枝后的稀疏参数,基于中间表示模板生成对应的稀疏卷积代码.同时,利用神经网络执行过程中的数据访问特点对数据的访问和放置进行了优化,有效提升了访存吞吐量.最后,稀疏参数的位置信息被隐式编码在生成的代码中,不需要额外的索引结构,降低了访存需求.在实验中证明了:相对于GPU上已有的稀疏神经网络执行方法,提出的稀疏感知的代码生成方法能够有效提升稀疏卷积神经网络的性能.

主 题 词:神经网络 稀疏 GPU 性能优化 卷积 代码生成 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081104[081104] 0835[0835] 0811[工学-水利类] 081201[081201] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.006051

馆 藏 号:203978713...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分