文献详情 >基于多尺度自适应注意力机制的视听语音分离收藏

基于多尺度自适应注意力机制的视听语音分离

作者机构：安徽大学计算机科学与技术学院合肥230601 徐州工程学院信息工程学院江苏徐州221000 安徽大学人工智能学院合肥230601 芜湖辛巴网络科技有限公司安徽芜湖241002

基　　金：国家自然科学青年科学基金(62102344) 安徽省重点研发项目(202304a05020056) 安徽省高校协同创新项目(GXXT-2022-036)

出版物：《人工智能》 (Artificial Intelligence View)

年卷期：2024年第3期

页码：1-14页

摘要：在混合音频分离过程中,通常使用与音频信息相关的视觉信息引导混合音频分离,这些视觉信息包含人脸图像、嘴唇运动和面部地标等,目前的方法对这些视觉信息的利用还不充分,并且音频信息和对应的视觉信息之间的关联性较弱。本工作设计了一种基于多尺度自适应注意力机制的视听语音分离网络,该网络联合人脸图像、嘴唇运动和面部地标这些视觉信息引导混合音频进行分离,并设计了一种交叉注意融合模块,该模块可以融合嘴唇运动特征和面部地标特征以得到增强且互补的视觉表示。此外,音频信息和视觉信息之间的相关性较弱,本文还设计了一种多尺度自适应注意力机制,并将其加入语音分离网络解码器中,使音频信息和对应的视觉信息更好地相互关联。实验结果验证了该方法的有效性。

主题词：语音分离多模态注意力机制视听相关性

学科分类：0711[理学-心理学类] 07[理学]

D　O　I：10.16453/j.2096-5036.202424

馆藏号：203128279...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多尺度自适应注意力机制的视听语音分离

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多尺度自适应注意力机制的视听语音分离

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：