文献详情 >采用Transformer网络的视频序列表情识别收藏

采用Transformer网络的视频序列表情识别

作者：陈港张石清赵小明 Chen Gang;Zhang Shiqing;Zhao Xiaoming

作者机构：台州学院智能信息处理研究所台州318000 浙江理工大学机械与自动控制学院杭州310018

基　　金：国家自然科学基金项目(61976149) 浙江省自然科学基金项目(LZ20F020002)

出版物：《中国图象图形学报》 (Journal of Image and Graphics)

年卷期：2022年第27卷第10期

页码：3022-3030页

摘要：目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s(Bahcesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。

主题词：视频序列人脸表情识别时空维度深度残差网络长短时记忆网络(LSTM) 端到端 Transformer

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

核心收录：

D　O　I：10.11834/jig.210248

馆藏号：203114925...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

采用Transformer网络的视频序列表情识别

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

采用Transformer网络的视频序列表情识别

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：