看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Conformer的实时多场景说话人识别模型 收藏
基于Conformer的实时多场景说话人识别模型

基于Conformer的实时多场景说话人识别模型

作     者:宣茜 韩润萍 高静欣 XUAN Xi;HAN Runping;GAO Jingxin

作者机构:北京服装学院文理学院北京100029 北京服装学院服装艺术与工程学院北京100029 

基  金:北京市教委科技计划项目(KM202210012002) 北京服装学院2022年研究生科研创新项目(X2022-110) 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2024年第60卷第7期

页      码:147-156页

摘      要:为解决在多场景(跨域、长时以及噪声干扰语音场景)下说话人确认系统性能较差的问题,提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进,其具有新颖有效的声学特征提取器,以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练;开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上,以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力;并且在声纹嵌入码提取器的可训练参数(Params)和推理速度(RTF)方面,PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。

主 题 词:说话人确认 MFA-Conformer Sub-center AAM-Softmax 声纹嵌入码 声学特征提取 

学科分类:1305[艺术学-设计学类] 13[艺术学] 08[工学] 081104[081104] 0804[工学-材料学] 081101[081101] 0811[工学-水利类] 

核心收录:

D O I:10.3778/j.issn.1002-8331.2210-0145

馆 藏 号:203127296...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分