看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多尺度自适应注意力机制的视听语音分离 收藏
基于多尺度自适应注意力机制的视听语音分离

基于多尺度自适应注意力机制的视听语音分离

作     者:吴亮 王甲祥 施汉琴 郑爱华 盛小飞 

作者机构:安徽大学计算机科学与技术学院合肥230601 徐州工程学院信息工程学院江苏徐州221000 安徽大学人工智能学院合肥230601 芜湖辛巴网络科技有限公司安徽芜湖241002 

基  金:国家自然科学青年科学基金(62102344) 安徽省重点研发项目(202304a05020056) 安徽省高校协同创新项目(GXXT-2022-036) 

出 版 物:《人工智能》 (Artificial Intelligence View)

年 卷 期:2024年第3期

页      码:1-14页

摘      要:在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。

主 题 词:语音分离 多模态 注意力机制 视听相关性 

学科分类:0711[理学-心理学类] 07[理学] 

D O I:10.16453/j.2096-5036.202424

馆 藏 号:203128279...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分