看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合多模态特征与时区检测的视频摘要算法 收藏
融合多模态特征与时区检测的视频摘要算法

融合多模态特征与时区检测的视频摘要算法

作     者:白晨 范涛 王文静 王国中 Bai Chen;Fan Tao;Wang Wenjing;Wang Guozhong

作者机构:上海工程技术大学电子电气工程学院上海201620 

基  金:国家重点研发计划重点专项2019年度资助项目(2019YFB180270200) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2023年第40卷第11期

页      码:3276-3281,3288页

摘      要:针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F 1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。

主 题 词:多模态特征 特征融合 视频摘要 时区检测 注意力机制 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.19734/j.issn.1001-3695.2023.02.0113

馆 藏 号:203124530...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分