看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多模态推理图神经网络的场景文本视觉问答模型 收藏
基于多模态推理图神经网络的场景文本视觉问答模型

基于多模态推理图神经网络的场景文本视觉问答模型

作     者:张海涛 郭欣雨 Zhang Haitao;Guo Xinyu

作者机构:辽宁工程技术大学软件学院辽宁葫芦岛125105 

基  金:辽宁省自然科学基金面上项目 中国人民解放军总装备部装备预研基金项目 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2022年第39卷第1期

页      码:280-284,302页

摘      要:文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。

主 题 词:视觉问答 图神经网络 多模态推理 问题自注意力 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.19734/j.issn.1001-3695.2021.06.0197

馆 藏 号:203107095...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分