看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于唇重构与三维耦合CNN的多视角音唇一致性判别 收藏
基于唇重构与三维耦合CNN的多视角音唇一致性判别

基于唇重构与三维耦合CNN的多视角音唇一致性判别

作     者:朱铮宇 罗超 贺前华 彭炜锋 毛志炜 张顺四 ZHU Zhengyu;LUO Chao;HE Qianhua;PENG Weifeng;MAO Zhiwei;ZHANG Shunsi

作者机构:华南理工大学音频、语音与视觉处理实验室广东广州510640 广东技术师范大学网络空间安全学院广东广州510665 广州趣丸网络科技有限公司广东广州510665 

基  金:国家自然科学基金资助项目(61672173) 国家重点研发计划项目(2018YFB1802200) 

出 版 物:《华南理工大学学报(自然科学版)》 (Journal of South China University of Technology(Natural Science Edition))

年 卷 期:2023年第51卷第5期

页      码:70-77页

摘      要:针对传统音唇一致性判别方法主要对正面唇动视频进行处理,未考虑视频采集角度变化对结果的影响,且容易忽略唇动过程中的时空特性等不足,文中以唇部角度变化对一致性判别的影响为研究重心,结合三维卷积神经网络在非线性表示和时空维度特征提取上的优势,提出了基于正面唇重构与三维耦合卷积神经网络的多视角音唇一致性判别方法。该方法先通过在生成器中引入自映射损失来提高正面重建效果,并采用基于自映射监督循环一致性生成对抗网络(SMS-CycleGAN)的唇重构方法对多视角唇图进行角度分类及正面重构;然后设计两个异构三维卷积神经网络,分别用来描述音频和视频信号,并提取包含长时时空关联信息的三维卷积特征;最后引入对比损失函数作为音视频信号匹配的相关度鉴别度量,将音视频网络输出耦合到同一表示空间,并进行一致性判别。实验结果表明,文中方法能重建出更高质量的正面唇图,一致性判别性能优于多种不同类型的比较方法。

主 题 词:一致性判别 生成对抗网络 卷积神经网络 正面重构 多模态 

学科分类:081203[081203] 08[工学] 0804[工学-材料学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.12141/j.issn.1000-565X.220435

馆 藏 号:203121805...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分