看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于EfficientNetV2-RetNet的端到端中文管制语音识别 收藏
基于EfficientNetV2-RetNet的端到端中文管制语音识别

基于EfficientNetV2-RetNet的端到端中文管制语音识别

作     者:梁海军 常瀚文 何一民 赵志伟 孔建国 LIANG Haijun;CHANG Hanwen;HE Yimin;ZHAO Zhiwei;KONG Jianguo

作者机构:中国民用航空飞行学院空中交通管理学院 

基  金:国家重点研发计划(2021YFF0603904) 中央高校基本科研业务费专项资金资助(PHD2023-035) 中央高校基本科研业务费资助项目(24CAFUC10195) 

出 版 物:《电讯技术》 (Telecommunication Engineering)

年 卷 期:2025年第65卷第2期

页      码:254-260页

摘      要:自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。

主 题 词:空中交通管制 自动语音识别 端到端深度学习 迁移学习 

学科分类:0711[理学-心理学类] 07[理学] 08[工学] 0825[工学-环境科学与工程类] 

核心收录:

D O I:10.20079/j.issn.1001-893x.240414002

馆 藏 号:203157353...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分