文献详情 >融合语言模型的端到端中文语音识别算法收藏

融合语言模型的端到端中文语音识别算法

作者：吕坤儒吴春国梁艳春袁宇平任智敏周柚时小虎 LV Kun-ru;WU Chun-guo;LIANG Yan-chun;YUAN Yu-ping;REN Zhi-min;ZHOU You;SHI Xiao-hu

作者机构：吉林大学计算机科学与技术学院吉林长春130012 吉林大学符号计算与知识工程教育部重点实验室吉林长春130012 珠海科技学院计算机学院广东珠海519041

基　　金：国家自然科学基金(No.61972174) 吉林省预算内基本建设资金(No.2021C044-1) 广东省国际科技合作项目(No.2020A0505100018) 吉林省自然科学基金(No.20200201163JC)

出版物：《电子学报》 (Acta Electronica Sinica)

年卷期：2021年第49卷第11期

页码：2177-2185页

摘要：为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep⁃Speech2模型相比字错误率降低了28%.

主题词：语音识别联结时序分类语言模型声学模型语音帧分解

学科分类：12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 081203[081203] 0835[0835] 0701[理学-数学类] 0811[工学-水利类] 0812[工学-测绘类]

核心收录：

D　O　I：10.12263/DZXB.20201187

馆藏号：203106748...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

融合语言模型的端到端中文语音识别算法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

融合语言模型的端到端中文语音识别算法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：