看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多声学场景下端到端语音识别声学编码器的自适应 收藏
多声学场景下端到端语音识别声学编码器的自适应

多声学场景下端到端语音识别声学编码器的自适应

作     者:刘育坤 郑霖 黎塔 张鹏远 LIU Yukun;ZHENG Lin;LI Ta;ZHANG Pengyuan

作者机构:中国科学院声学研究所语言声学与内容理解重点实验室北京100190 中国科学院大学北京100049 

基  金:国家重点研发计划项目(2020AAA0108002) 中国科学院声学研究所自主部署“目标导向”类项目(MBDX202106)资助 

出 版 物:《声学学报》 (Acta Acustica)

年 卷 期:2023年第48卷第6期

页      码:1260-1268页

摘      要:提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。

主 题 词:自动语音识别 声学编码器 自适应 神经网络结构搜索 

学科分类:0711[理学-心理学类] 12[管理学] 1201[管理学-管理科学与工程类] 07[理学] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.12395/0371-0025.2022114

馆 藏 号:203124231...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分