文献详情 >基于视觉-语言特征编码的跨模态融合视觉问答方法收藏

基于视觉-语言特征编码的跨模态融合视觉问答方法

作者：刘润知陈念年曾芳 LIU Runzhi;CHEN Niannian;ZENG Fang

基　　金：四川省科技厅重点研发项目(2021YFG0031) 四川省省级科研院所科技成果转化项目(22YSZH0021)

出版物：《西南科技大学学报》 (Journal of Southwest University of Science and Technology)

年卷期：2024年第39卷第3期

页码：86-95页

摘要：现有的视觉问答方法采用相同编码器编码视觉-语言特征,忽略了视觉-语言模态之间的差异,从而在编码视觉特征时引入与问题无关的视觉干扰特征,导致对关键视觉特征关注不足。提出一种基于视觉-语言特征编码的跨模态融合视觉问答方法:采用一种动态注意力编码视觉特征以实现根据问题动态调整视觉特征的注意力范围;设计了一种具有双门控机制的引导注意力以过滤多模态融合过程带入的干扰信息,提升多模态特征融合的质量,并增强多模态特征的表征能力。该方法在视觉问答公共数据集VQA-2.0上的Test-dev和Test-std两个测试集上的准确率分别达到71.73%和71.94%,相比于基准方法分别提升了1.10和1.04个百分点。本文方法能够提升视觉问答任务的答案预测准确率。

主题词：视觉问答注意力机制多模态融合

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

D　O　I：10.20036/j.cnki.1671-8755.2024.03.013

馆藏号：203144342...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于视觉-语言特征编码的跨模态融合视觉问答方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于视觉-语言特征编码的跨模态融合视觉问答方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：