文献详情 >多声学场景下端到端语音识别声学编码器的自适应收藏

多声学场景下端到端语音识别声学编码器的自适应

作者：刘育坤郑霖黎塔张鹏远 LIU Yukun;ZHENG Lin;LI Ta;ZHANG Pengyuan

作者机构：中国科学院声学研究所语言声学与内容理解重点实验室北京100190 中国科学院大学北京100049

基　　金：国家重点研发计划项目(2020AAA0108002) 中国科学院声学研究所自主部署“目标导向”类项目(MBDX202106)资助

出版物：《声学学报》 (Acta Acustica)

年卷期：2023年第48卷第6期

页码：1260-1268页

摘要：提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。

主题词：自动语音识别声学编码器自适应神经网络结构搜索

学科分类：0711[理学-心理学类] 12[管理学] 1201[管理学-管理科学与工程类] 07[理学] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类]

核心收录：

D　O　I：10.12395/0371-0025.2022114

馆藏号：203124231...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

多声学场景下端到端语音识别声学编码器的自适应

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

多声学场景下端到端语音识别声学编码器的自适应

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：