看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于语义引导的视频描述生成 收藏
基于语义引导的视频描述生成

基于语义引导的视频描述生成

作     者:石佳豪 姚莉 SHI Jia-hao;YAO Li

作者机构:东南大学计算机科学与工程学院江苏南京211189 计算机网络和信息集成教育部重点实验室(东南大学)江苏南京211189 

基  金:南京市重大科技专项(202209003) 

出 版 物:《图学学报》 (Journal of Graphics)

年 卷 期:2023年第44卷第6期

页      码:1191-1201页

摘      要:视频描述生成旨在对给定的一段输入视频自动生成一句文本来概述发生的事件,其可用于视频检索、短视频标题生成、辅助视障、安防监控等领域。现有的方法忽视了语义信息在描述生成的作用,导致模型对于关键信息的描述能力不足。针对这一问题,设计了一个基于语义引导的视频描述生成模型。模型整体采用了编码器-解码器框架。在编码阶段首先使用语义增强模块生成关键实体及谓词,接着通过语义融合模块生成整体的语义表示;解码阶段使用词选择模块选择合适的词向量来引导描述生成,从而高效地利用语义信息,使结果更加关注关键语义。最后的实验表明该模型在2个广泛使用的数据集MSVD和MSR-VTT上分别取得107.0%和52.4%的Cider评分,优于最先进的模型。用户实验及可视化结果也证明了模型生成的描述符合人类的理解。

主 题 词:视频描述生成 语义引导 Transformer 特征融合 语义增强 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.11996/JG.j.2095-302X.2023061191

馆 藏 号:203125163...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分