看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合语言模型的端到端中文语音识别算法 收藏
融合语言模型的端到端中文语音识别算法

融合语言模型的端到端中文语音识别算法

作     者:吕坤儒 吴春国 梁艳春 袁宇平 任智敏 周柚 时小虎 LV Kun-ru;WU Chun-guo;LIANG Yan-chun;YUAN Yu-ping;REN Zhi-min;ZHOU You;SHI Xiao-hu

作者机构:吉林大学计算机科学与技术学院吉林长春130012 吉林大学符号计算与知识工程教育部重点实验室吉林长春130012 珠海科技学院计算机学院广东珠海519041 

基  金:国家自然科学基金(No.61972174) 吉林省预算内基本建设资金(No.2021C044-1) 广东省国际科技合作项目(No.2020A0505100018) 吉林省自然科学基金(No.20200201163JC) 

出 版 物:《电子学报》 (Acta Electronica Sinica)

年 卷 期:2021年第49卷第11期

页      码:2177-2185页

摘      要:为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep⁃Speech2模型相比字错误率降低了28%.

主 题 词:语音识别 联结时序分类 语言模型 声学模型 语音帧分解 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 081203[081203] 0835[0835] 0701[理学-数学类] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.12263/DZXB.20201187

馆 藏 号:203106748...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分