看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于视觉-语言特征编码的跨模态融合视觉问答方法 收藏
基于视觉-语言特征编码的跨模态融合视觉问答方法

基于视觉-语言特征编码的跨模态融合视觉问答方法

作     者:刘润知 陈念年 曾芳 LIU Runzhi;CHEN Niannian;ZENG Fang

作者机构:西南科技大学计算机科学与技术学院四川绵阳621010 

基  金:四川省科技厅重点研发项目(2021YFG0031) 四川省省级科研院所科技成果转化项目(22YSZH0021) 

出 版 物:《西南科技大学学报》 (Journal of Southwest University of Science and Technology)

年 卷 期:2024年第39卷第3期

页      码:86-95页

摘      要:现有的视觉问答方法采用相同编码器编码视觉-语言特征,忽略了视觉-语言模态之间的差异,从而在编码视觉特征时引入与问题无关的视觉干扰特征,导致对关键视觉特征关注不足。提出一种基于视觉-语言特征编码的跨模态融合视觉问答方法:采用一种动态注意力编码视觉特征以实现根据问题动态调整视觉特征的注意力范围;设计了一种具有双门控机制的引导注意力以过滤多模态融合过程带入的干扰信息,提升多模态特征融合的质量,并增强多模态特征的表征能力。该方法在视觉问答公共数据集VQA-2.0上的Test-dev和Test-std两个测试集上的准确率分别达到71.73%和71.94%,相比于基准方法分别提升了1.10和1.04个百分点。本文方法能够提升视觉问答任务的答案预测准确率。

主 题 词:视觉问答 注意力机制 多模态融合 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.20036/j.cnki.1671-8755.2024.03.013

馆 藏 号:203144342...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分