看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于视觉区域聚合与双向协作的端到端图像描述生成 收藏
基于视觉区域聚合与双向协作的端到端图像描述生成

基于视觉区域聚合与双向协作的端到端图像描述生成

作     者:宋井宽 曾鹏鹏 顾嘉扬 朱晋宽 高联丽 SONG Jing-Kuan;ZENG Peng-Peng;GU Jia-Yang;ZHU Jin-Kuan;GAO Lian-Li

作者机构:电子科技大学计算机科学与工程学院四川成都611731 

基  金:国家自然科技支撑计划(2022YFC2009900/2022YFC2009903) 国家自然科学基金(62122018,62020106008,61772116,61872064) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2023年第34卷第5期

页      码:2152-2169页

摘      要:近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.

主 题 词:图像描述 端到端训练 预训练模型 视觉区域聚合 双向协作 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.006773

馆 藏 号:203121228...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分