看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向知识蒸馏的自动梯度混合方法 收藏
面向知识蒸馏的自动梯度混合方法

面向知识蒸馏的自动梯度混合方法

作     者:曹炅宣 常明 张蕊 支天 张曦珊 CAO Jiongxuan;CHANG Ming;ZHANG Rui;ZHI Tian;ZHANG Xishan

作者机构:中国科学技术大学合肥230026 中国科学院计算技术研究所北京100190 中科寒武纪科技股份有限公司北京100191 

基  金:国家重点研发计划(2020AAA0103802) 国家自然科学基金(61925208,61906179,62102399,U20A20227) 中国科学院战略性先导科技专项(XDB32050200) 中国科学院稳定支持基础研究领域青年团队计划(YSBR-029)资助项目 

出 版 物:《高技术通讯》 (Chinese High Technology Letters)

年 卷 期:2023年第33卷第12期

页      码:1276-1285页

摘      要:在知识蒸馏(KD)中,学生网络会同时受到真实数据的监督和来自教师网络的监督,因此在训练中,其损失函数包含有来自真实标签的任务损失和来自教师网络的蒸馏损失,而如何有效配置损失函数的权重至今仍是一个未解决的问题。为了克服这个问题,本文提出了一种自动梯度混合(AGB)方法,通过搜索这2个损失的最佳混合梯度来自动有效地找到合适的损失权重。在知识蒸馏的原始设计中,蒸馏损失是用来辅助任务损失进行训练,因此本文将混合梯度的模长约束为任务损失对应梯度模长,仅仅只搜索梯度向量的方向,从而显著缩减了搜索空间。在搜索得到最佳混合梯度后,2个损失的损失权重可以被自动计算出来,从而避免了耗时的手动调节过程。本文在13种不同的师生网络组合以及10种不同的知识蒸馏方法间进行了大量的实验。结果表明,自动梯度混合方法能够在使用更少计算资源的条件下,在70%的蒸馏方法上比手动调节方法结果更优。

主 题 词:深度神经网络(DNN) 知识蒸馏(KD) 超参数优化(HPO) 图像分类 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081104[081104] 080203[080203] 0802[工学-机械学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.3772/j.issn.1002-0470.2023.12.005

馆 藏 号:203125321...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分