文献详情 >基于CLIP的多模态融合视频描述生成收藏

基于CLIP的多模态融合视频描述生成

作者：王亮夏舟勇胡营营王军 WANG Liang;XIA Zhou-yong;HU Ying-ying;WANG Jun

作者机构：沈阳化工大学计算机科学与技术学院辽宁沈阳110142 沈阳化工大学辽宁省化工过程工业智能化技术重点实验室辽宁沈阳110142

基　　金：国家外国专家项目计划基金项目(G2022006008L) 中国高校产学研创新基金项目(2021LD06009) 辽宁省自然科学基金项目(2022-MS-291) 辽宁省教育厅科研基金项目(LJ2020024) 辽宁省教育厅基本科研基金项目(LJKMZ20220781) 辽宁省教育厅基本科研面上基金项目(JYTMS20231488)

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2025年第46卷第2期

页码：384-391页

摘要：为解决视频描述任务中2D的CLIP预训练模型缺乏时序关系与动作检测敏感性以及信息冗余问题,提出一种基于CLIP的结合注意力掩码与运动表示增强的多模态融合视频描述模型。采用可学习令牌整理冻结的CLIP特征、运动特征与音频特征中的关键信息,优化多模态融合;引入关键词检测任务,提高关键信息提取能力;采用基于相关度的多头注意力掩码机制解决冗余问题;利用CLIP特征的向量差变换增强运动表示。实验结果表明,该模型性能优于现有视频描述生成方法,CIDEr指标在MSR-VTT数据集上提升了2.33%,在VATEX数据集上提升了3.12%。

主题词：预训练模型视频描述多模态特征融合运动表示注意力掩码关键词检测

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

D　O　I：10.16208/j.issn1000-7024.2025.02.009

馆藏号：203157503...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于CLIP的多模态融合视频描述生成

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于CLIP的多模态融合视频描述生成

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：