看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于全相位滤波器组频带鉴别的生成对抗网络声码器设计 收藏
基于全相位滤波器组频带鉴别的生成对抗网络声码器设计

基于全相位滤波器组频带鉴别的生成对抗网络声码器设计

作     者:黄翔东 王俊芹 马金英 张烜溢 Huang Xiangdong;Wang Junqin;Ma Jinying;Zhang Xuanyi

作者机构:天津大学电气自动化与信息工程学院天津300072 天津职业技术师范大学电子工程学院天津300222 天津大学佐治亚理工深圳学院深圳518067 

基  金:青海省基础研究计划面上资助项目(2021-ZJ-910) 

出 版 物:《天津大学学报(自然科学与工程技术版)》 (Journal of Tianjin University:Science and Technology)

年 卷 期:2023年第56卷第8期

页      码:815-822页

摘      要:为实现高质量、高效率、低成本的语音合成,设计开发了一种基于全相位滤波器组频带鉴别的生成对抗网络声码器APFB-GAN.该声码器以现有的HiFi-GAN为参考,在生成器中,削减了HiFi-GAN多感受野融合模块约60%的参数.在鉴别器中做了两点改进:一是将HiFi-GAN中多尺度鉴别器与多周期鉴别器替换为基于全相位滤波器组的鉴别器,克服了原有模型无法依据语音能量非均匀频带分布,灵活进行特征特征提取的缺点;二是提出基于频带加权的多窗长的短时傅里叶变换谱损失函数,配合鉴别器更好地稳定训练.实验结果表明:APFB-GAN声码器合成的语音质量可与HiFi-GAN相媲美,且其高频细节特征更为突出,模型参数只为HiFi-GAN的28.78%,在GPU上的合成速度是HiFi-GAN的2.4倍.

主 题 词:语音合成 声码器 生成对抗网络 全相位滤波器组 

学科分类:0810[工学-土木类] 0711[理学-心理学类] 07[理学] 0812[工学-测绘类] 

核心收录:

D O I:10.11784/tdxbz202207049

馆 藏 号:203122369...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分