Video Joint-Embedding Predictive Architectures for Facial Expression Recognition - 专知论文

会员服务 ·

0

视频 · 嵌入 · 联合嵌入 · 识别 · 面部表情识别 ·

Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

翻译：基于视频联合嵌入预测架构的面部表情识别

Lennart Eing,Cristina Luna-Jiménez,Silvan Mertes,Elisabeth André

from arxiv, To appear in 2025 Proceedings of the 13th International Conference on Affective Computing and Intelligent Interaction (ACII), submitted to IEEE. \c{opyright} 2025 IEEE

This paper introduces a novel application of Video Joint-Embedding Predictive Architectures (V-JEPAs) for Facial Expression Recognition (FER). Departing from conventional pre-training methods for video understanding that rely on pixel-level reconstructions, V-JEPAs learn by predicting embeddings of masked regions from the embeddings of unmasked regions. This enables the trained encoder to not capture irrelevant information about a given video like the color of a region of pixels in the background. Using a pre-trained V-JEPA video encoder, we train shallow classifiers using the RAVDESS and CREMA-D datasets, achieving state-of-the-art performance on RAVDESS and outperforming all other vision-based methods on CREMA-D (+1.48 WAR). Furthermore, cross-dataset evaluations reveal strong generalization capabilities, demonstrating the potential of purely embedding-based pre-training approaches to advance FER. We release our code at https://github.com/lennarteingunia/vjepa-for-fer.

翻译：本文提出了一种新颖的视频联合嵌入预测架构（V-JEPA）在面部表情识别（FER）中的应用。与依赖像素级重建的传统视频理解预训练方法不同，V-JEPA通过学习从非遮蔽区域的嵌入预测遮蔽区域的嵌入进行训练。这使得训练后的编码器不会捕获视频中无关的信息，例如背景中像素区域的颜色。使用预训练的V-JEPA视频编码器，我们利用RAVDESS和CREMA-D数据集训练浅层分类器，在RAVDESS上取得了最先进的性能，并在CREMA-D上超越了所有其他基于视觉的方法（+1.48 WAR）。此外，跨数据集评估显示出强大的泛化能力，证明了纯基于嵌入的预训练方法在推进FER方面的潜力。我们在https://github.com/lennarteingunia/vjepa-for-fer发布了代码。

0

相关内容

视频

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

《静态与动态情感的面部表情识别综述》

《静态与动态情感的面部表情识别综述》

专知会员服务

20+阅读 · 2024年8月31日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

「深度学习表情动作单元识别」最新2022研究综述

「深度学习表情动作单元识别」最新2022研究综述

专知会员服务

25+阅读 · 2022年10月8日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

深度人脸表情识别研究进展

专知会员服务

56+阅读 · 2021年3月5日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

Github项目推荐 | Emotion-recognition 实时表情识别

Github项目推荐 | Emotion-recognition 实时表情识别

AI科技评论

19+阅读 · 2019年7月8日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

keras实战︱人脸表情分类与识别：人脸检测+情绪分类

keras实战︱人脸表情分类与识别：人脸检测+情绪分类

数据挖掘入门与实战

21+阅读 · 2017年12月16日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

恐惧、高兴微表情识别的认知神经机制

国家自然科学基金

1+阅读 · 2014年12月31日

MeFEm: Medical Face Embedding model

Arxiv

0+阅读 · 2月16日

Hierarchical Vision-Language Interaction for Facial Action Unit Detection

Arxiv

0+阅读 · 2月16日

Realistic Face Reconstruction from Facial Embeddings via Diffusion Models

Arxiv

0+阅读 · 2月13日

Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment

Arxiv

0+阅读 · 2月11日

VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping

Arxiv

0+阅读 · 2月8日

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

Arxiv

0+阅读 · 2月2日

Facial Recognition Leveraging Generative Adversarial Networks

Arxiv

0+阅读 · 1月31日

Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models

Arxiv

0+阅读 · 1月30日

Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach

Arxiv

0+阅读 · 1月26日

Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

面部表情识别

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

《静态与动态情感的面部表情识别综述》

《静态与动态情感的面部表情识别综述》

专知会员服务

20+阅读 · 2024年8月31日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

「深度学习表情动作单元识别」最新2022研究综述

「深度学习表情动作单元识别」最新2022研究综述

专知会员服务

25+阅读 · 2022年10月8日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR2021】基于特征解构与重构学习的人脸表情识别

专知会员服务

44+阅读 · 2021年4月18日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

深度人脸表情识别研究进展

专知会员服务

56+阅读 · 2021年3月5日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

基于Hugging Face的Transformer库，300行实现命名实体识别

基于Hugging Face的Transformer库，300行实现命名实体识别

专知

119+阅读 · 2020年2月25日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

Github项目推荐 | Emotion-recognition 实时表情识别

Github项目推荐 | Emotion-recognition 实时表情识别

AI科技评论

19+阅读 · 2019年7月8日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

keras实战︱人脸表情分类与识别：人脸检测+情绪分类

keras实战︱人脸表情分类与识别：人脸检测+情绪分类

数据挖掘入门与实战

21+阅读 · 2017年12月16日

相关论文

MeFEm: Medical Face Embedding model

Arxiv

0+阅读 · 2月16日

Hierarchical Vision-Language Interaction for Facial Action Unit Detection

Arxiv

0+阅读 · 2月16日

Realistic Face Reconstruction from Facial Embeddings via Diffusion Models

Arxiv

0+阅读 · 2月13日

Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment

Arxiv

0+阅读 · 2月11日

VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping

Arxiv

0+阅读 · 2月8日

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

Arxiv

0+阅读 · 2月2日

Facial Recognition Leveraging Generative Adversarial Networks

Arxiv

0+阅读 · 1月31日

Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models

Arxiv

0+阅读 · 1月30日

Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach

Arxiv

0+阅读 · 1月26日

Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation

Arxiv

0+阅读 · 1月19日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

恐惧、高兴微表情识别的认知神经机制

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员