文献详情 >基于视觉区域聚合与双向协作的端到端图像描述生成收藏

基于视觉区域聚合与双向协作的端到端图像描述生成

作者：宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽 SONG Jing-Kuan;ZENG Peng-Peng;GU Jia-Yang;ZHU Jin-Kuan;GAO Lian-Li

基　　金：国家自然科技支撑计划(2022YFC2009900/2022YFC2009903) 国家自然科学基金(62122018,62020106008,61772116,61872064)

出版物：《软件学报》 (Journal of Software)

年卷期：2023年第34卷第5期

页码：2152-2169页

摘要：近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.

主题词：图像描述端到端训练预训练模型视觉区域聚合双向协作

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

核心收录：

D　O　I：10.13328/j.cnki.jos.006773

馆藏号：203121228...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于视觉区域聚合与双向协作的端到端图像描述生成

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于视觉区域聚合与双向协作的端到端图像描述生成

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：