看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于CLIP的多模态融合视频描述生成 收藏
基于CLIP的多模态融合视频描述生成

基于CLIP的多模态融合视频描述生成

作     者:王亮 夏舟勇 胡营营 王军 WANG Liang;XIA Zhou-yong;HU Ying-ying;WANG Jun

作者机构:沈阳化工大学计算机科学与技术学院辽宁沈阳110142 沈阳化工大学辽宁省化工过程工业智能化技术重点实验室辽宁沈阳110142 

基  金:国家外国专家项目计划基金项目(G2022006008L) 中国高校产学研创新基金项目(2021LD06009) 辽宁省自然科学基金项目(2022-MS-291) 辽宁省教育厅科研基金项目(LJ2020024) 辽宁省教育厅基本科研基金项目(LJKMZ20220781) 辽宁省教育厅基本科研面上基金项目(JYTMS20231488) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2025年第46卷第2期

页      码:384-391页

摘      要:为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信息,优化多模态融合;引入关键词检测任务,提高关键信息提取能力;采用基于相关度的多头注意力掩码机制解决冗余问题;利用CLIP特征的向量差变换增强运动表示。实验结果表明,该模型性能优于现有视频描述生成方法,CIDEr指标在MSR-VTT数据集上提升了2.33%,在VATEX数据集上提升了3.12%。

主 题 词:预训练模型 视频描述 多模态 特征融合 运动表示 注意力掩码 关键词检测 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.16208/j.issn1000-7024.2025.02.009

馆 藏 号:203157503...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分