文献详情 >基于多模态推理图神经网络的场景文本视觉问答模型收藏

基于多模态推理图神经网络的场景文本视觉问答模型

作者：张海涛郭欣雨 Zhang Haitao;Guo Xinyu

基　　金：辽宁省自然科学基金面上项目中国人民解放军总装备部装备预研基金项目

出版物：《计算机应用研究》 (Application Research of Computers)

年卷期：2022年第39卷第1期

页码：280-284,302页

摘要：文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。

主题词：视觉问答图神经网络多模态推理问题自注意力

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

D　O　I：10.19734/j.issn.1001-3695.2021.06.0197

馆藏号：203107095...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多模态推理图神经网络的场景文本视觉问答模型

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多模态推理图神经网络的场景文本视觉问答模型

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：