看过本文的还看了

相关文献

该作者的其他文献

文献详情 >采用Transformer网络的视频序列表情识别 收藏
采用Transformer网络的视频序列表情识别

采用Transformer网络的视频序列表情识别

作     者:陈港 张石清 赵小明 Chen Gang;Zhang Shiqing;Zhao Xiaoming

作者机构:台州学院智能信息处理研究所台州318000 浙江理工大学机械与自动控制学院杭州310018 

基  金:国家自然科学基金项目(61976149) 浙江省自然科学基金项目(LZ20F020002) 

出 版 物:《中国图象图形学报》 (Journal of Image and Graphics)

年 卷 期:2022年第27卷第10期

页      码:3022-3030页

摘      要:目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s(Bahcesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。

主 题 词:视频序列 人脸表情识别 时空维度 深度残差网络 长短时记忆网络(LSTM) 端到端 Transformer 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

核心收录:

D O I:10.11834/jig.210248

馆 藏 号:203114925...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分