文献详情 >基于唇重构与三维耦合CNN的多视角音唇一致性判别收藏

基于唇重构与三维耦合CNN的多视角音唇一致性判别

作者：朱铮宇罗超贺前华彭炜锋毛志炜张顺四 ZHU Zhengyu;LUO Chao;HE Qianhua;PENG Weifeng;MAO Zhiwei;ZHANG Shunsi

作者机构：华南理工大学音频、语音与视觉处理实验室广东广州510640 广东技术师范大学网络空间安全学院广东广州510665 广州趣丸网络科技有限公司广东广州510665

基　　金：国家自然科学基金资助项目(61672173) 国家重点研发计划项目(2018YFB1802200)

出版物：《华南理工大学学报（自然科学版）》 (Journal of South China University of Technology(Natural Science Edition))

年卷期：2023年第51卷第5期

页码：70-77页

摘要：针对传统音唇一致性判别方法主要对正面唇动视频进行处理,未考虑视频采集角度变化对结果的影响,且容易忽略唇动过程中的时空特性等不足,文中以唇部角度变化对一致性判别的影响为研究重心,结合三维卷积神经网络在非线性表示和时空维度特征提取上的优势,提出了基于正面唇重构与三维耦合卷积神经网络的多视角音唇一致性判别方法。该方法先通过在生成器中引入自映射损失来提高正面重建效果,并采用基于自映射监督循环一致性生成对抗网络(SMS-CycleGAN)的唇重构方法对多视角唇图进行角度分类及正面重构;然后设计两个异构三维卷积神经网络,分别用来描述音频和视频信号,并提取包含长时时空关联信息的三维卷积特征;最后引入对比损失函数作为音视频信号匹配的相关度鉴别度量,将音视频网络输出耦合到同一表示空间,并进行一致性判别。实验结果表明,文中方法能重建出更高质量的正面唇图,一致性判别性能优于多种不同类型的比较方法。

主题词：一致性判别生成对抗网络卷积神经网络正面重构多模态

学科分类：081203[081203] 08[工学] 0804[工学-材料学] 0835[0835] 0812[工学-测绘类]

核心收录：

D　O　I：10.12141/j.issn.1000-565X.220435

馆藏号：203121805...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于唇重构与三维耦合CNN的多视角音唇一致性判别

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于唇重构与三维耦合CNN的多视角音唇一致性判别

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：