GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction - 专知论文

会员服务 ·

0

虚拟人 · 重建 · 几何感知 · 几何结构 · 结构 ·

GeoDiff4D: Geometry-Aware Diffusion for 4D Head Avatar Reconstruction

翻译：GeoDiff4D：面向四维头部虚拟人重建的几何感知扩散模型

Chao Xu,Xiaochen Zhao,Xiang Deng,Jingxiang Sun,Zhuo Su,Donglin Di,Yebin Liu

from arxiv, 17 pages

Reconstructing photorealistic and animatable 4D head avatars from a single portrait image remains a fundamental challenge in computer vision. While diffusion models have enabled remarkable progress in image and video generation for avatar reconstruction, existing methods primarily rely on 2D priors and struggle to achieve consistent 3D geometry. We propose a novel framework that leverages geometry-aware diffusion to learn strong geometry priors for high-fidelity head avatar reconstruction. Our approach jointly synthesizes portrait images and corresponding surface normals, while a pose-free expression encoder captures implicit expression representations. Both synthesized images and expression latents are incorporated into 3D Gaussian-based avatars, enabling photorealistic rendering with accurate geometry. Extensive experiments demonstrate that our method substantially outperforms state-of-the-art approaches in visual quality, expression fidelity, and cross-identity generalization, while supporting real-time rendering.

翻译：从单张肖像图像重建具有照片级真实感且可动画化的四维头部虚拟人，始终是计算机视觉领域的一项基础性挑战。尽管扩散模型在面向虚拟人重建的图像与视频生成方面取得了显著进展，但现有方法主要依赖于二维先验，难以实现一致的三维几何结构。我们提出了一种新颖的框架，该框架利用几何感知扩散来学习用于高保真头部虚拟人重建的强几何先验。我们的方法联合合成肖像图像及对应的表面法线图，同时一个无姿态的表情编码器捕获隐式的表情表征。合成图像与表情潜在编码均被整合到基于三维高斯分布的虚拟人中，从而实现具有精确几何结构的光照真实感渲染。大量实验表明，我们的方法在视觉质量、表情保真度以及跨身份泛化能力上均显著优于现有最先进方法，同时支持实时渲染。

0

相关内容

虚拟人

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

10+阅读 · 4月17日

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

30+阅读 · 2025年9月12日

重建四维空间智能：综述

重建四维空间智能：综述

专知会员服务

25+阅读 · 2025年7月29日

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

专知会员服务

18+阅读 · 2024年11月22日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Arxiv

0+阅读 · 2月27日

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Arxiv

0+阅读 · 2月27日

Human Video Generation from a Single Image with 3D Pose and View Control

Arxiv

0+阅读 · 2月24日

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Arxiv

0+阅读 · 2月24日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

7+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

10+阅读 · 4月17日

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

30+阅读 · 2025年9月12日

重建四维空间智能：综述

重建四维空间智能：综述

专知会员服务

25+阅读 · 2025年7月29日

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

【博士论文】ࣞ动态三维人体的隐式神经表示方法研究

专知会员服务

18+阅读 · 2024年11月22日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关论文

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Arxiv

0+阅读 · 2月27日

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Arxiv

0+阅读 · 2月27日

Human Video Generation from a Single Image with 3D Pose and View Control

Arxiv

0+阅读 · 2月24日

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Arxiv

0+阅读 · 2月24日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员