看过本文的还看了

相关文献

该作者的其他文献

文献详情 >时序对齐视觉特征映射的音效生成方法 收藏
时序对齐视觉特征映射的音效生成方法

时序对齐视觉特征映射的音效生成方法

作     者:谢志峰 孙络祎 孙郁洲 余椿鹏 马利庄 Xie Zhifeng;Sun Luoyi;Sun Yuzhou;Yu Chunpeng;Ma Lizhuang

作者机构:上海大学影视工程系上海200072 上海大学上海电影特效工程技术研究中心上海200072 上海交通大学计算机科学与工程系上海200240 

基  金:国家自然科学基金(61303093) 上海市自然科学基金(19ZR1419100) 

出 版 物:《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)

年 卷 期:2022年第34卷第10期

页      码:1506-1514页

摘      要:针对目前视觉引导的音效生成方法存在的保真度低、时序对齐效果差等问题,提出一种基于时序对齐视觉特征映射的音效生成方法.首先,设计基于时序约束的特征聚合窗口,将视频序列滑动整合为视觉特征集合;其次,构建时空匹配的跨模态视音频特征映射网络,将视觉特征集合转换为多频段音频特征;最后,采用音频解码器将音频特征解码为梅尔频谱,再使用声码器将其转换为最终波形.在VAS数据集上进行定性与定量实验,实验结果表明,与现有方法相比,文中方法在语音质量感知评估、发声点平均偏移量以及人工评估方面均有显著提升,其中,发声点平均偏移量平均降低至0.2 s.

主 题 词:音效生成 跨模态 自编码器 时序对齐 

学科分类:08[工学] 080203[080203] 0804[工学-材料学] 0802[工学-机械学] 

核心收录:

D O I:10.3724/SP.J.1089.2022.19725

馆 藏 号:203115488...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分