看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型 收藏
基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型

基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型

作     者:林俊安 包翠竹 董建锋 杨勋 王勋 LIN Jun-An;BAO Cui-Zhu;DONG Jian-Feng;YANG Xun;WANG Xun

作者机构:浙江工商大学计算机科学与技术学院杭州310018 中国科学技术大学信息科学技术学院合肥230026 

基  金:浙江省“尖兵”“领雁”研发攻关计划项目(No.2023C01212) 浙江省基础公益技术研究计划(No.LGF21F020010) 第八届中国科协青年人才托举工程项目(No.2022QNRC001)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2024年第47卷第9期

页      码:2195-2210页

摘      要:本文针对具有挑战性的多语言文本-视频跨模态检索问题进行研究.传统文本-视频跨模态检索模型通常针对单一语言进行设计,比如英语,模型仅支持某一特定语言的文本查询.如果有不同语言检索需求,则需另收集目标语言的训练数据并重新训练构建新的检索模型,这使得模型很难快速有效地适用于其他语言的检索任务.近年来,针对多语言问题的研究逐渐深入,这为多语言跨模态检索的实现打下了良好的基石.为了解决多语言跨模态检索问题,本文提出了一种简单有效的基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,将不同语言与视觉信息映射到同一公共空间.该空间以视频向量为锚点,分别与不同的语言向量进行对齐,以此实现多语言跨模态的学习,由此建立了统一的多语言学习框架,使用一个模型满足了多语言的检索需求并探究了不平行语料库、平行语料库、伪平行语料库三种训练场景下的模型性能.同时,在多语言建模中有效地利用了不同语言之间的互通性和互补性,弥补了单语言文本特征表达的不足;并在文本端与视频端引入了基于对比学习的抗噪音鲁棒性学习方法,进一步提升了不同模态特征的表示能力.在VATEX、MSR-VTT多语言数据集上实验的数据证明,本文模型不仅能够简单快速地适用于多种语言检索任务,模型性能也较为突出,在较为常见的伪平行场景下和最先进的方法相比,中文VATEX和MSR-VTT在总召回率上分别提升了约5.97%和1.37%.

主 题 词:多语言 跨模态检索 跨模态特征表示 对比学习 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2024.02195

馆 藏 号:203141174...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分