文献检索-宁波市创意产业特色资源库

基于跨模态信息过滤的视觉问答网络: 收藏
分享
引用; 《计算机科学》2024年第5期51卷 85-91页; 作者：何世阳王朝晖龚声蓉钟珊苏州大学计算机科学与技术学院江苏苏州215008 苏州大学东吴学院江苏苏州215006 常熟理工学院计算机科学与工程学院江苏苏州215500; 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注...; 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。; 来源：详细信息评论

利用可交谈多头共注意力机制的视觉问答: 收藏
分享
引用; 《小型微型计算机系统》2024年第8期45卷 1901-1907页; 作者：杨旭华庞宇超叶蕾浙江工业大学计算机科学与技术学院杭州310023; 视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易...; 视觉问答可以对图像信息和自然语言问题这两种不同模态的信息进行分析处理并预测答案,是一项跨模态学习任务.当前注意力机制因为其良好的关键信息提取效果被广泛地用以捕捉视觉图像、文本和两种模态间的关系.但是,传统的注意力机制容易忽略图像和文本的自相关信息,而且不能较好的利用图像和文本的信息差异性.因此,在本文中,我们提出了可交谈的多头共注意力网络框架来处理注意力机制的上述问题.首先,本文提出了可交谈多头注意力机制来捕捉不同注意力头之间隐藏的关系,得到增强的注意力信息.本文设计了前后不同的交谈策略去处理归一化前后注意力头之间的信息,在引入先验信息的同时减少了过拟合的风险.本文提出了交谈自注意力单元和交谈引导注意力单元,并使用编码器-解码器方式有效地组合它们来丰富视觉和文本表征.该框架针对自注意力层增加了位置编码,弥补了交谈自注意力无法捕获位置的问题,此框架使用不同的注意力策略去分别得到图像和文本向量,并使用新的多模态融合模块来更好的融合图像和文本信息,降低了对单个信息的依赖性.该模型在VQA-v2数据集上和多个知名算法进行比较,数值仿真实验表明提出的算法具有明显的优越性.; 来源：详细信息评论

联合知识和视觉信息推理的视觉问答研究: 收藏
分享
引用; 《计算机工程与应用》2024年第5期60卷 95-102页; 作者：苏振强苟刚贵州大学计算机科学与技术学院公共大数据国家重点实验室贵阳550025; 视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答...; 视觉问答作为多模态领域中的一项任务,需要对不同模态的特征进行融合推理,具有重要的应用价值。在传统视觉问答中,只需依靠图像的视觉信息,便能很好地推理出问题答案,但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用,能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识,才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识,提出联合知识和视觉信息推理双线性结构,设计了图像特征联合问题特征,对知识表征进行双引导的注意力模块。该模型利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息;利用相似性矩阵计算问题语义对齐下的图像对象区域;问题特征联合对齐后的区域特征,对知识表征进行协同引导获得知识推理信息;视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明,该模型的准确率相比两种基线方法分别有1.97个百分点和4.82个百分点的提升,从而验证了该模型的有效性。; 来源：详细信息评论

基于跨模态对比学习的视觉问答主动学习方法: 收藏
分享
引用; 《计算机学报》2022年第8期45卷 1730-1745页; 作者：张北辰李亮查正军黄庆明中国科学院大学计算机科学与技术学院北京101408 中国科学院计算技术研究所智能信息处理重点实验室北京100190 中国科学技术大学信息科学技术学院合肥230027 鹏城实验室深圳广东518055; 视觉自动问答技术是一个新兴的多模态学习任务,它联系了图像内容理解和文本语义推理,针对图像和问题给出对应的回答.该技术涉及多种模态交互,对视觉感知和文本语义学习有较高的要求,受到了广泛的关注.然而,视觉自动问答模型的训练对数...; 视觉自动问答技术是一个新兴的多模态学习任务,它联系了图像内容理解和文本语义推理,针对图像和问题给出对应的回答.该技术涉及多种模态交互,对视觉感知和文本语义学习有较高的要求,受到了广泛的关注.然而,视觉自动问答模型的训练对数据集的要求较高.它需要多种多样的问题模式和大量的相似场景不同答案的问题答案标注,以保证模型的鲁棒性和不同模态下的泛化能力.而标注视觉自动问答数据需要花费大量的人力物力,高昂的成本成为制约该领域发展的瓶颈.针对这个问题,本文提出了基于跨模态特征对比学习的视觉问答主动学习方法(CCRL).该方法从尽可能覆盖更多的问题类型和尽可能获取更平衡的问题分布两方面出发,设计了视觉问题匹配评价(VQME)模块和视觉答案不确定度度量(VAUE)模块.视觉问题评价模块使用了互信息和对比预测编码作为自监督学习的约束,学习视觉模态和问题模式的匹配关系.视觉答案不确定性模块引入了标注状态学习模块,自适应地选择匹配的问题模式并学习跨模态问答语义关联,通过答案项的概率分布评估样本不确定度,寻找最有价值的未标注样本进行标注.在实验部分,本文在视觉问答数据集VQA-v2上将CCRL和其他最新的主动学习算法进行了性能比较,实验结果表明该方法在各个问题模式下均超越之前的方法,该方法对比当前性能最好的主动学习方法在不同的采样率下平均提升了1.65%的准确率.在仅标注30%的数据下,该方法可以达到100%样本标注下性能的96%;在40%的标注比例之下,该方法可以达到100%样本标注下性能的97%.这说明该方法可以选取出具有高指导价值的样本,节约了标注花费的同时最大化视觉自动问答的模型性能.; 来源：详细信息评论

基于多尺度融合的遥感视觉问答: 收藏
分享
引用; 《遥感技术与应用》2023年第6期38卷 1477-1484页; 作者：郭艳黄远程竞霞西安科技大学测绘科学与技术学院陕西西安710000; 遥感视觉问答根据给定遥感图像回答与图像内容相关的自然语言问题,是快速调查和监测全球资源的重要途径。遥感图像场景复杂多样,从对图像场景的理解到对图中局部目标的识别往往涉及尺度的变化。因此,为在遥感的视觉问答系统中引入多尺...; 遥感视觉问答根据给定遥感图像回答与图像内容相关的自然语言问题,是快速调查和监测全球资源的重要途径。遥感图像场景复杂多样,从对图像场景的理解到对图中局部目标的识别往往涉及尺度的变化。因此,为在遥感的视觉问答系统中引入多尺度的应用场景,我们设计了多尺度遥感视觉问答模型(MRS-VQA模型),并根据该模型创建了新的数据集—“多尺度遥感视觉问答数据集(MRS-VQA数据集)”。此外,MRS-VQA模型在融合模块使用注意力机制得到两个模态互交的可视化结果,有效提升了模型的准确率和可解释性。实验结果表明:本研究提出的具有两层注意力的MRS-VQA模型(准确率96.82%)优于其他遥感视觉问答模型(RSVQA准确率81.36%),说明多尺度特征融合在遥感视觉问答中的研究具有重要意义。; 来源：详细信息评论

基于多模态推理图神经网络的场景文本视觉问答模型: 收藏
分享
引用; 《计算机应用研究》2022年第1期39卷 280-284,302页; 作者：张海涛郭欣雨辽宁工程技术大学软件学院辽宁葫芦岛125105; 文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中...; 文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。; 来源：详细信息评论

基于场景词分析的可纠错视觉问答方法: 收藏
分享
引用; 《计算机工程与设计》2022年第12期43卷 3521-3528页; 作者：肖婧文姜士玲温俊芳胡艺馨王秋艳宋庆增天津工业大学计算机科学与技术学院天津300387; 现有的方法不进行语义及场景理解,直接进行匹配并回答问题,因此会导致结果与用户预期产生偏差。基于场景词分析,提出可纠错的视觉问答方法。如果第一次回答的反馈为答案错误,则进行场景词分析,即通过分析图片中所有目标是否可能出现在...; 现有的方法不进行语义及场景理解,直接进行匹配并回答问题,因此会导致结果与用户预期产生偏差。基于场景词分析,提出可纠错的视觉问答方法。如果第一次回答的反馈为答案错误,则进行场景词分析,即通过分析图片中所有目标是否可能出现在场景中,重新选取潜在的匹配图片,提高整体回答的准确率。在MemexQA数据集和Visual7w数据集上的实验结果表明,相比现有方法,该方法准确率更高。; 来源：详细信息评论

基于多模态融合的视觉问答传输注意网络: 收藏
分享
引用; 《电子科技》2022年第12期35卷 72-77页; 作者：王茂彭亚雄陆安江贵州大学大数据与信息工程学院贵州贵阳550025; 针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征。通过3层传输注意网络...; 针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征。通过3层传输注意网络进行多模态融合来学习全局多模态嵌入信息,进而使用该嵌入重新校准输入特征。文中设计了一个多模态传输注意学习架构,通过对传输网络进行重叠计算,使组合特征聚焦在图像和问题的细粒度部分,提高了预测答案的准确率。在VQA v1.0数据集上的实验结果表明,该模型的总体准确率达到了69.92%,显著优于其他5种主流视觉问答模型的准确率,证明了该模型的有效性和鲁棒性。; 来源：详细信息评论

基于图卷积网络的视觉问答研究: 收藏
分享
引用; 《计算机与数字工程》2022年第1期50卷 135-139页; 作者：龚安丁磊姚鑫杰中国石油大学(华东)青岛266580; 随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向。视觉问答需要跨模态的理解与推理能力(图像与文本)。由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上...; 随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向。视觉问答需要跨模态的理解与推理能力(图像与文本)。由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上有一定的潜力,因此提出了一种基于图卷积网络的视觉问答方法。首先使用神经网络分别提取图像和文本特征,再用图处理模块将预处理后图像和文本处理为图结构数据,然后实现基于图卷积网络的模型设计,数据训练与答案预测。通过与ReasonNet和BottomUp等模型在VQA2.0数据集上进行对比实验,验证了该方法提升了视觉问答任务的准确率。; 来源：详细信息评论

基于层次注意力机制的高效视觉问答模型: 收藏
分享
引用; 《计算机应用研究》2021年第2期38卷 636-640页; 作者：吝博强田文洪电子科技大学信息与软件工程学院成都610054; 视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型...; 视觉问答(visual question answering,VQA)是深度学习领域的一个新挑战,需要模型同时根据问题的语义和图片的内容进行推理并给出正确答案。针对视觉问答图片输入的多样性,设计了一种由两层注意力机制堆叠组成的层次注意力机制,帮助模型定位图片中与问题相关的信息,其中第一层注意力机制使用目标检测网络提取图片中物体的特征,第二层注意力机制引入问题特征。同时改进了现有的特征融合方式,消除对输入特征尺寸的限制。VQA数据集的测试结果显示,层次注意力机制使计数类问题的回答准确率提升了4%~5%,其他类型的问题回答准确率也有小幅提升。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：