看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法 收藏
结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法

结合MGCC特征与多尺度通道注意力的环境声深度学习分类方法

作     者:杨俊杰 丁家辉 杨柳 冯丽 杨超 YANG Junjie;DING Jiahui;YANG Liu;FENG Li;YANG Chao

作者机构:广东工业大学自动化学院广州510006 物联网智能信息处理与系统集成教育部重点实验室广州510006 广州大学计算机科学与网络工程学院广州510006 澳门科技大学资讯科技学院中国澳门999078 

基  金:国家自然科学青年基金项目(62003101) 广东省自然科学基金面上基金项目(2022A1515010181,2023A1515011290) 

出 版 物:《应用声学》 (Journal of Applied Acoustics)

年 卷 期:2024年第43卷第3期

页      码:513-524页

摘      要:环境声分类技术在家居安全监测、人机语声交互等领域具有关键作用。然而,声源的多样性与混合性给环境声分类方法设计带来了重大挑战。为提高分类准确率与节约计算资源,该文提出一种基于多尺度通道注意力机制的深度学习分类模型。所提模型由特征提取模块、多尺度卷积模块、高效通道注意力模块、输出层四部分组成。首先,通过引入加权型梅尔Gammatone频率倒谱系数(MGCC)挖掘环境声频谱幅值与相位结构信息;其次,融合多尺度卷积核与高效通道注意力机制优选出声频关键局部细节和通道特征;最后,在全连接层采用softmax函数映射特征并输出环境声类型的概率值。所提模型在6种环境声的iFLYTEK、10种环境声的Urbansound8k数据集上开展测试验证,分别取得了94%、76.52%、79.24%(iFLYTEK+Urbansound8k)的分类准确率。消融实验结果进一步表明:引入的多尺度卷积模块、通道注意力机制模块对分类准确率的提升贡献率分别接近于3.77%和1.89%。实验还详细对比了7种现有的深度学习分类方法,所提算法在分类准确率上排名第二;另外,在同级别算法中如ResNet18、GoogLeNet,所提算法在模型参数量和计算复杂度方面上实现了进一步的约减。

主 题 词:环境声分类 梅尔Gammatone频率倒谱 多尺度核卷积 高效通道注意力 卷积神经网络 

学科分类:080801[080801] 0808[工学-自动化类] 08[工学] 

D O I:10.11684/j.issn.1000-310X.2024.03.006

馆 藏 号:203127954...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分