看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多模态生成对抗网络和三元组损失的说话人识别 收藏
基于多模态生成对抗网络和三元组损失的说话人识别

基于多模态生成对抗网络和三元组损失的说话人识别

作     者:陈莹 陈湟康 CHEN Ying;CHEN Huangkang

作者机构:江南大学轻工过程先进控制教育部重点实验室 

基  金:国家自然科学基金(61573168) 

出 版 物:《电子与信息学报》 (Journal of Electronics & Information Technology)

年 卷 期:2020年第42卷第2期

页      码:379-385页

摘      要:为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。

主 题 词:说话人识别 跨模态 生成对抗网络 3元组损失 

学科分类:0711[理学-心理学类] 07[理学] 081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.11999/JEIT190154

馆 藏 号:203884437...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分