看过本文的还看了

相关文献

该作者的其他文献

文献详情 >无参注意力结合自监督改善音频分类方法 收藏
无参注意力结合自监督改善音频分类方法

无参注意力结合自监督改善音频分类方法

作     者:公绪超 李宗民 Gong Xuchao;Li Zongmin

作者机构:中国石油大学(华东)计算机科学与技术学院青岛266580 中国石化集团胜利石油管理局有限公司信息化技术服务中心东营257000 

基  金:国家重点研发计划(2019YF0301800) 国家自然科学基金(61379106) 

出 版 物:《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)

年 卷 期:2023年第35卷第3期

页      码:434-440页

摘      要:基于transformer端到端音频分类方法在许多场景下证明可以达到优于二维卷积的效果.针对目前常用的transformer音频分类方法只关注不同时序间的特征重要性,而对同时序间的特征重要程度刻画程度不足的问题,提出一种无参注意力结合自监督特征构建的方法改善音频分类效果.通过在同时序特征中构造无参多局部极值注意力机制,拟合特征多局部极值分布,刻画同时序间的特征重要性;通过对输入的音频频谱图在时域和频域上随机掩码,加入自监督信息,有效地学习音频频谱细节及分类信息.采用audio set数据集,esc50数据集以及Speech Command数据集进行对比实验,实验结果表明,该算法比基准方法在识别准确率指标上提升了0.46%~1.20%.

主 题 词:transformer 注意力机制 自监督 音频分类 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 0701[理学-数学类] 0812[工学-测绘类] 

核心收录:

D O I:10.3724/SP.J.1089.2023.19353

馆 藏 号:203121402...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分