看过本文的还看了

相关文献

该作者的其他文献

文献详情 >视频描述中全局-局部联合语义生成网络 收藏
视频描述中全局-局部联合语义生成网络

视频描述中全局-局部联合语义生成网络

作     者:毛琳 高航 杨大伟 Mao Lin;Gao Hang;Yang Dawei

作者机构:大连民族大学机电工程学院大连116600 

基  金:国家自然科学基金(61673084) 辽宁省自然科学基金(20170540192,20180550866) 民族创新联合基金(2020-MZLH-24) 

出 版 物:《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)

年 卷 期:2023年第35卷第9期

页      码:1374-1382页

摘      要:针对视频描述中语义特征不能兼顾全局概括信息和局部细节信息,影响视频描述效果的问题,提出一种视频描述中全局-局部联合语义生成网络GLS-Net.首先利用全局与局部信息的互补性设计全局和局部语义提取单元,2个单元采用残差结构的多层感知机(residual multi-layer perceptron,r-MLP)来增强特征提取效果;然后联合概括性全局语义和细节性局部语义增强语义特征的表达能力;最后将该语义特征作为视频内容编码,提升视频描述模型性能.在MSR-VTT和MSVD数据集上,以语义辅助视频描述(semantics-assisted video captioning network,SAVC)网络为基础进行的实验的结果表明,GLS-Net优于现有同类算法,与SAVC网络相比,准确率平均提升6.2%.

主 题 词:视频描述 语义特征 视觉特征 多层感知机 残差结构 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

核心收录:

D O I:10.3724/SP.J.1089.2023.19619

馆 藏 号:203124532...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分