看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Transformer的图像分类网络MultiFormer 收藏
基于Transformer的图像分类网络MultiFormer

基于Transformer的图像分类网络MultiFormer

作     者:胡杰 昌敏杰 熊宗权 徐博远 谢礼浩 郭迪 Hu Jie;Chang Minjie;Xiong Zongquan;Xu Boyuan;Xie Lihao;Guo Di

作者机构:武汉理工大学现代汽车零部件技术湖北省重点实验室武汉430070 武汉理工大学汽车零部件技术湖北省协同创新中心武汉430070 武汉理工大学湖北省新能源与智能网联车工程技术研究中心武汉430070 

基  金:湖北省技术创新专项(2019AEA169) 湖北省科技重大专项(2020AAA001) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2022年第39卷第10期

页      码:3191-3195页

摘      要:为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入的同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。

主 题 词:机器视觉 深度学习 图像分类 自注意力 Transformer 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.19734/j.issn.1001-3695.2022.03.0133

馆 藏 号:203114656...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分