文献详情 >时序对齐视觉特征映射的音效生成方法收藏

时序对齐视觉特征映射的音效生成方法

作者：谢志峰孙络祎孙郁洲余椿鹏马利庄 Xie Zhifeng;Sun Luoyi;Sun Yuzhou;Yu Chunpeng;Ma Lizhuang

作者机构：上海大学影视工程系上海200072 上海大学上海电影特效工程技术研究中心上海200072 上海交通大学计算机科学与工程系上海200240

基　　金：国家自然科学基金(61303093) 上海市自然科学基金(19ZR1419100)

出版物：《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)

年卷期：2022年第34卷第10期

页码：1506-1514页

摘要：针对目前视觉引导的音效生成方法存在的保真度低、时序对齐效果差等问题,提出一种基于时序对齐视觉特征映射的音效生成方法.首先,设计基于时序约束的特征聚合窗口,将视频序列滑动整合为视觉特征集合;其次,构建时空匹配的跨模态视音频特征映射网络,将视觉特征集合转换为多频段音频特征;最后,采用音频解码器将音频特征解码为梅尔频谱,再使用声码器将其转换为最终波形.在VAS数据集上进行定性与定量实验,实验结果表明,与现有方法相比,文中方法在语音质量感知评估、发声点平均偏移量以及人工评估方面均有显著提升,其中,发声点平均偏移量平均降低至0.2 s.

主题词：音效生成跨模态自编码器时序对齐

学科分类：08[工学] 080203[080203] 0804[工学-材料学] 0802[工学-机械学]

核心收录：

D　O　I：10.3724/SP.J.1089.2022.19725

馆藏号：203115488...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

时序对齐视觉特征映射的音效生成方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

时序对齐视觉特征映射的音效生成方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：