This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.


翻译:本文提出了一种新颖的视频联合嵌入预测架构(V-JEPA)在面部表情识别(FER)中的应用。与依赖像素级重建的传统视频理解预训练方法不同,V-JEPA通过学习从非遮蔽区域的嵌入预测遮蔽区域的嵌入进行训练。这使得训练后的编码器不会捕获视频中无关的信息,例如背景中像素区域的颜色。使用预训练的V-JEPA视频编码器,我们利用RAVDESS和CREMA-D数据集训练浅层分类器,在RAVDESS上取得了最先进的性能,并在CREMA-D上超越了所有其他基于视觉的方法(+1.48 WAR)。此外,跨数据集评估显示出强大的泛化能力,证明了纯基于嵌入的预训练方法在推进FER方面的潜力。我们在https://github.com/lennarteingunia/vjepa-for-fer发布了代码。

0
下载
关闭预览

相关内容

《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
「深度学习表情动作单元识别」 最新2022研究综述
专知会员服务
25+阅读 · 2022年10月8日
专知会员服务
44+阅读 · 2021年4月18日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
56+阅读 · 2021年3月5日
专知会员服务
11+阅读 · 2021年2月4日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
Github项目推荐 | Emotion-recognition 实时表情识别
AI科技评论
19+阅读 · 2019年7月8日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
keras实战︱人脸表情分类与识别:人脸检测+情绪分类
数据挖掘入门与实战
21+阅读 · 2017年12月16日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
【CVPR2023】面向不同视频的可扩展神经表示,
专知会员服务
20+阅读 · 2023年3月28日
「深度学习表情动作单元识别」 最新2022研究综述
专知会员服务
25+阅读 · 2022年10月8日
专知会员服务
44+阅读 · 2021年4月18日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
56+阅读 · 2021年3月5日
专知会员服务
11+阅读 · 2021年2月4日
相关资讯
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
Github项目推荐 | Emotion-recognition 实时表情识别
AI科技评论
19+阅读 · 2019年7月8日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
keras实战︱人脸表情分类与识别:人脸检测+情绪分类
数据挖掘入门与实战
21+阅读 · 2017年12月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员