看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向Transformer模型的轻量化方法研究 收藏
面向Transformer模型的轻量化方法研究

面向Transformer模型的轻量化方法研究

作     者:徐慧超 徐海文 刘丽娜 

作者机构:黑龙江财经学院黑龙江哈尔滨150069 苏州大学江苏苏州215008 

出 版 物:《电脑知识与技术》 (Computer Knowledge and Technology)

年 卷 期:2024年第20卷第4期

页      码:25-28页

摘      要:随着Transformer模型的改进与发展,模型的参数数量显著增加,使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法:使用预训练好的BERT模型(Bidirectional Encoder Representation from Transformers)作为教师模型,设计学生模型卷积神经网络(Convolutional Neural Network,CNN),加入注意力机制的循环神经网络(Recurrent Neural Network,RNN)和全连接神经网络(Full Connect Neu-ral Network,DNN),并采用logits和matching logits两种蒸馏方法,实现模型的轻量化。实验结果表明,当将BERT模型蒸馏给CNN时,参数数量减少93.46%,运行速度提升30余倍,在小规模数据集上准确率仅下降0.70%;当将BERT蒸馏给加入注意力机制的RNN时,参数数量减少了93.38%,速度提升100余倍,模型准确率轻微下降;当将DNN作为学生模型时,参数数量减少了93.77%,速度提升了200余倍,在大规模数据集上,准确率仅下降0.02%。

主 题 词:深度学习 Transformer模型 注意力机制 轻量化方法 知识蒸馏 

学科分类:08[工学] 081202[081202] 0812[工学-测绘类] 

D O I:10.14004/j.cnki.ckt.2024.0230

馆 藏 号:203127052...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分