看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向遥感视觉问答的尺度引导融合推理网络 收藏
面向遥感视觉问答的尺度引导融合推理网络

面向遥感视觉问答的尺度引导融合推理网络

作     者:赵恩源 宋宁 聂婕 王鑫 郑程予 魏志强 ZHAO En-Yuan;SONG Ning;NIE Jie;WANG Xin;ZHENG Cheng-Yu;WEI Zhi-Qiang

作者机构:中国海洋大学信息科学与工程学部山东青岛266100 清华大学计算机科学与技术系北京100084 青岛海洋科技中心山东青岛266061 

基  金:国家重点研发计划(2021YFF0704000) 国家自然科学基金(62172376) 国家自然科学基金区域创新发展联合基金(U22A2068) 中央引导地方科技发展专项资金(YDZX2022028) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2024年第35卷第5期

页      码:2133-2149页

摘      要:遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.

主 题 词:遥感视觉问答 多模态智能融合 多模态推理 多尺度表征 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.007025

馆 藏 号:203127507...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分