OFERA: Blendshape-driven 3D Gaussian Control for Occluded Facial Expression to Realistic Avatars in VR - 专知论文

会员服务 ·

0

混合 · VR · 映射 · 遮挡 · 对齐 ·

OFERA: Blendshape-driven 3D Gaussian Control for Occluded Facial Expression to Realistic Avatars in VR

翻译：OFERA：基于混合形状驱动的遮挡面部表情到VR逼真化身的3D高斯控制

Seokhwan Yang,Boram Yoon,Seoyoung Kang,Hail Song,Woontack Woo

from arxiv, Accepted as an IEEE TVCG paper at IEEE VR 2026 (journal track)

We propose OFERA, a novel framework for real-time expression control of photorealistic Gaussian head avatars for VR headset users. Existing approaches attempt to recover occluded facial expressions using additional sensors or internal cameras, but sensor-based methods increase device weight and discomfort, while camera-based methods raise privacy concerns and suffer from limited access to raw data. To overcome these limitations, we leverage the blendshape signals provided by commercial VR headsets as expression inputs. Our framework consists of three key components: (1) Blendshape Distribution Alignment (BDA), which applies linear regression to align the headset-provided blendshape distribution to a canonical input space; (2) an Expression Parameter Mapper (EPM) that maps the aligned blendshape signals into an expression parameter space for controlling Gaussian head avatars; and (3) a Mapper-integrated Avatar (MiA) that incorporates EPM into the avatar learning process to ensure distributional consistency. Furthermore, OFERA establishes an end-to-end pipeline that senses and maps expressions, updates Gaussian avatars, and renders them in real-time within VR environments. We show that EPM outperforms existing mapping methods on quantitative metrics, and we demonstrate through a user study that the full OFERA framework enhances expression fidelity while preserving avatar realism. By enabling real-time and photorealistic avatar expression control, OFERA significantly improves telepresence in VR communication. A project page is available at https://ysshwan147.github.io/projects/ofera/.

翻译：我们提出OFERA，一种面向VR头显用户的逼真高斯头部化身实时表情控制新框架。现有方法尝试使用额外传感器或内部摄像头来恢复被遮挡的面部表情，但基于传感器的方法会增加设备重量和不适感，而基于摄像头的方法则引发隐私担忧且难以获取原始数据。为克服这些限制，我们利用商用VR头显提供的混合形状信号作为表情输入。我们的框架包含三个关键组件：(1) 混合形状分布对齐(BDA)，应用线性回归将头显提供的混合形状分布对齐到规范输入空间；(2) 表情参数映射器(EPM)，将对齐后的混合形状信号映射到用于控制高斯头部化身的表情参数空间；(3) 集成映射器的化身(MiA)，将EPM融入化身学习过程以确保分布一致性。此外，OFERA建立了端到端流程，可在VR环境中实时感知与映射表情、更新高斯化身并进行渲染。我们通过量化指标证明EPM优于现有映射方法，并通过用户研究表明完整OFERA框架在保持化身真实感的同时提升了表情保真度。通过实现实时逼真的化身表情控制，OFERA显著提升了VR通信中的临场感。项目页面详见 https://ysshwan147.github.io/projects/ofera/。

0

相关内容

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微透镜阵列出瞳扩展全色激光扫描显示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Arxiv

0+阅读 · 3月9日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

Toward Fine-Grained Facial Control in 3D Talking Head Generation

Arxiv

0+阅读 · 2月10日

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Arxiv

0+阅读 · 2月10日

GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars

Arxiv

0+阅读 · 2月9日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

1+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Arxiv

0+阅读 · 3月9日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

Toward Fine-Grained Facial Control in 3D Talking Head Generation

Arxiv

0+阅读 · 2月10日

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Arxiv

0+阅读 · 2月10日

GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars

Arxiv

0+阅读 · 2月9日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月30日

相关基金

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微透镜阵列出瞳扩展全色激光扫描显示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员