文献详情 >基于Transformer的图像分类网络MultiFormer 收藏

基于Transformer的图像分类网络MultiFormer

作者：胡杰昌敏杰熊宗权徐博远谢礼浩郭迪 Hu Jie;Chang Minjie;Xiong Zongquan;Xu Boyuan;Xie Lihao;Guo Di

作者机构：武汉理工大学现代汽车零部件技术湖北省重点实验室武汉430070 武汉理工大学汽车零部件技术湖北省协同创新中心武汉430070 武汉理工大学湖北省新能源与智能网联车工程技术研究中心武汉430070

基　　金：湖北省技术创新专项(2019AEA169) 湖北省科技重大专项(2020AAA001)

出版物：《计算机应用研究》 (Application Research of Computers)

年卷期：2022年第39卷第10期

页码：3191-3195页

摘要：为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入的同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。

主题词：机器视觉深度学习图像分类自注意力 Transformer

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

D　O　I：10.19734/j.issn.1001-3695.2022.03.0133

馆藏号：203114656...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Transformer的图像分类网络MultiFormer

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Transformer的图像分类网络MultiFormer

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：