文献检索-宁波市创意产业特色资源库

限定检索结果

检索条件"作者=宋井宽"

共 2 条记录，以下是1-10 订阅

全选清除本页清除全部题录导出标记到"检索档案"

视图：

排序：

基于视觉区域聚合与双向协作的端到端图像描述生成: 收藏
分享
引用; 《软件学报》2023年第5期34卷 2152-2169页; 作者：宋井宽曾鹏鹏顾嘉扬朱晋宽高联丽电子科技大学计算机科学与工程学院四川成都611731; 近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征...; 近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能.; 来源：详细信息评论

面向视觉对话的自适应视觉记忆网络: 收藏
分享
引用; 《电子科技大学学报》2021年第5期50卷 749-753页; 作者：赵磊高联丽宋井宽电子科技大学计算机科学与工程学院成都611731; 视觉对话中最具挑战的难点是视觉共指消解问题,该文针对此问题设计了一种自适应视觉记忆网络(AVMN)。该方法直接将视觉信息存储于外部记忆库,整合了文本和视觉定位过程,进而有效缓解了在这两个过程中所产生的误差。此外在很多场景下,仅...; 视觉对话中最具挑战的难点是视觉共指消解问题,该文针对此问题设计了一种自适应视觉记忆网络(AVMN)。该方法直接将视觉信息存储于外部记忆库,整合了文本和视觉定位过程,进而有效缓解了在这两个过程中所产生的误差。此外在很多场景下,仅依据图片便可对提出的问题进行回答,历史信息反而会导致不必要的误差。因此,模型自适应地读取外部视觉记忆,并融合了残差视觉信息。实验证明,相比于其他方法,该模型在各项指标上均取得了更优的效果。; 来源：详细信息评论

全选清除本页清除全部题录导出标记到“检索档案”

共1页<< <1> >>

聚类工具回到顶部