文献详情 >面向遥感视觉问答的尺度引导融合推理网络收藏

面向遥感视觉问答的尺度引导融合推理网络

作者：赵恩源宋宁聂婕王鑫郑程予魏志强 ZHAO En-Yuan;SONG Ning;NIE Jie;WANG Xin;ZHENG Cheng-Yu;WEI Zhi-Qiang

作者机构：中国海洋大学信息科学与工程学部山东青岛266100 清华大学计算机科学与技术系北京100084 青岛海洋科技中心山东青岛266061

基　　金：国家重点研发计划(2021YFF0704000) 国家自然科学基金(62172376) 国家自然科学基金区域创新发展联合基金(U22A2068) 中央引导地方科技发展专项资金(YDZX2022028)

出版物：《软件学报》 (Journal of Software)

年卷期：2024年第35卷第5期

页码：2133-2149页

摘要：遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.

主题词：遥感视觉问答多模态智能融合多模态推理多尺度表征

学科分类：12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类]

核心收录：

D　O　I：10.13328/j.cnki.jos.007025

馆藏号：203127507...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

面向遥感视觉问答的尺度引导融合推理网络

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

面向遥感视觉问答的尺度引导融合推理网络

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：