限定检索结果

检索条件"主题词=视觉问答"
15 条 记 录,以下是1-10 订阅
视图:
排序:
基于跨模态信息过滤的视觉问答网络
收藏 引用
《计算机科学》2024年 第5期51卷 85-91页
作者:何世阳 王朝晖 龚声蓉 钟珊苏州大学计算机科学与技术学院江苏苏州215008 苏州大学东吴学院江苏苏州215006 常熟理工学院计算机科学与工程学院江苏苏州215500 
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注...
来源:详细信息评论
利用可交谈多头共注意力机制的视觉问答
收藏 引用
《小型微型计算机系统》2024年 第8期45卷 1901-1907页
作者:杨旭华 庞宇超 叶蕾浙江工业大学计算机科学与技术学院杭州310023 
视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易...
来源:详细信息评论
联合知识和视觉信息推理的视觉问答研究
收藏 引用
《计算机工程与应用》2024年 第5期60卷 95-102页
作者:苏振强 苟刚贵州大学计算机科学与技术学院公共大数据国家重点实验室贵阳550025 
视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答...
来源:详细信息评论
基于跨模态对比学习的视觉问答主动学习方法
收藏 引用
《计算机学报》2022年 第8期45卷 1730-1745页
作者:张北辰 李亮 查正军 黄庆明中国科学院大学计算机科学与技术学院北京101408 中国科学院计算技术研究所智能信息处理重点实验室北京100190 中国科学技术大学信息科学技术学院合肥230027 鹏城实验室深圳广东518055 
视觉自动问答技术是一个新兴的多模态学习任务,它联系了图像内容理解和文本语义推理,针对图像和问题给出对应的回答.该技术涉及多种模态交互,对视觉感知和文本语义学习有较高的要求,受到了广泛的关注.然而,视觉自动问答模型的训练对数...
来源:详细信息评论
基于多尺度融合的遥感视觉问答
收藏 引用
《遥感技术与应用》2023年 第6期38卷 1477-1484页
作者:郭艳 黄远程 竞霞西安科技大学测绘科学与技术学院陕西西安710000 
遥感视觉问答根据给定遥感图像回答与图像内容相关的自然语言问题,是快速调查和监测全球资源的重要途径。遥感图像场景复杂多样,从对图像场景的理解到对图中局部目标的识别往往涉及尺度的变化。因此,为在遥感的视觉问答系统中引入多尺...
来源:详细信息评论
基于多模态推理图神经网络的场景文本视觉问答模型
收藏 引用
《计算机应用研究》2022年 第1期39卷 280-284,302页
作者:张海涛 郭欣雨辽宁工程技术大学软件学院辽宁葫芦岛125105 
文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中...
来源:详细信息评论
基于场景词分析的可纠错视觉问答方法
收藏 引用
《计算机工程与设计》2022年 第12期43卷 3521-3528页
作者:肖婧文 姜士玲 温俊芳 胡艺馨 王秋艳 宋庆增天津工业大学计算机科学与技术学院天津300387 
现有的方法不进行语义及场景理解,直接进行匹配并回答问题,因此会导致结果与用户预期产生偏差。基于场景词分析,提出可纠错的视觉问答方法。如果第一次回答的反馈为答案错误,则进行场景词分析,即通过分析图片中所有目标是否可能出现在...
来源:详细信息评论
基于多模态融合的视觉问答传输注意网络
收藏 引用
《电子科技》2022年 第12期35卷 72-77页
作者:王茂 彭亚雄 陆安江贵州大学大数据与信息工程学院贵州贵阳550025 
针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征。通过3层传输注意网络...
来源:详细信息评论
基于图卷积网络的视觉问答研究
收藏 引用
《计算机与数字工程》2022年 第1期50卷 135-139页
作者:龚安 丁磊 姚鑫杰中国石油大学(华东)青岛266580 
随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向。视觉问答需要跨模态的理解与推理能力(图像与文本)。由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上...
来源:详细信息评论
基于层次注意力机制的高效视觉问答模型
收藏 引用
《计算机应用研究》2021年 第2期38卷 636-640页
作者:吝博强 田文洪电子科技大学信息与软件工程学院成都610054 
视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型...
来源:详细信息评论
聚类工具 回到顶部