看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分离对比学习的个性化语音合成 收藏
基于分离对比学习的个性化语音合成

基于分离对比学习的个性化语音合成

作     者:尚影 韩超 吴克伟 SHANG Ying;HAN Chao;WU Kewei

作者机构:阜阳幼儿师范高等专科学校小学教育学院安徽阜阳236015 合肥工业大学计算机与信息学院合肥230601 

基  金:2021年度安徽高校自然科学研究项目(KJ2021A1573) 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2023年第59卷第22期

页      码:158-165页

摘      要:个性化语音合成是指根据目标说话人的参考语音,合成具有目标说话人风格的语音。参考语音同时依赖于目标说话人风格和语音中的文本内容。现有方法将参考语音作为一个整体进行对比分析,但是在说话人风格和语言内容两方面没有进行分离对比分析,导致了合成语音受到语言内容的干扰,而偏离目标说话人风格的问题。设计了一种风格与内容分离的对比损失,用于个性化语音合成模型。该模型包括风格-内容分离对比模块、说话人模块、语音解码器模块。风格-内容分离对比模块将查询参考语音中的风格和内容视为正例,并使用风格-内容分离的负例。该分离负例能够促使查询的风格和其他参考语音中的内容分离,同时能够促使查询的内容与其他参考语音中的风格分离。风格内容分离对比模块用于学习兼顾风格-内容的语音特征。说话人模块学习说话人身份特征,并用于引导说话人风格学习。语音解码器模块融合风格-内容的语音特征和说话人身份特征,用于提高对持续时间、音高、能量这些说话人风格的描述能力。在VCTK和LibriTTS两个数据集上的实验表明,该方法提高了合成语音的说话人相似度,合成语音的质量优于现有方法。

主 题 词:语音合成 分离对比学习 说话人风格 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3778/j.issn.1002-8331.2306-0127

馆 藏 号:203124567...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分