Achieving consistent and high-fidelity geometry and appearance reconstruction of 3D digital humans from a single RGB image is inherently a challenging task. Existing studies typically resort to decoupled pipelines for geometry estimation and appearance synthesis, often hindering unified reconstruction and causing inconsistencies. This paper introduces \textbf{JGA-LBD}, a novel framework that unifies the modeling of geometry and appearance into a joint latent representation and formulates the generation process as bridge diffusion. Observing that directly integrating heterogeneous input conditions (e.g., depth maps, SMPL models) leads to substantial training difficulties, we unify all conditions into the 3D Gaussian representations, which can be further compressed into a unified latent space through a shared sparse variational autoencoder (VAE). Subsequently, the specialized form of bridge diffusion enables to start with a partial observation of the target latent code and solely focuses on inferring the missing components. Finally, a dedicated decoding module extracts the complete 3D human geometric structure and renders novel views from the inferred latent representation. Experiments demonstrate that JGA-LBD outperforms current state-of-the-art approaches in terms of both geometry fidelity and appearance quality, including challenging in-the-wild scenarios. Our code will be made publicly available at https://github.com/haiantyz/JGA-LBD.


翻译:从单张RGB图像实现三维数字人体几何与外观的一致高保真重建本质上是一项具有挑战性的任务。现有研究通常采用解耦的流程分别进行几何估计与外观合成,这往往阻碍了统一重建并导致不一致性。本文提出 \textbf{JGA-LBD},一个新颖的框架,它将几何与外观的建模统一到一个联合潜在表示中,并将生成过程表述为桥接扩散。我们观察到,直接整合异构输入条件(如深度图、SMPL模型)会导致显著的训练困难,因此我们将所有条件统一到3D高斯表示中,这些表示可以通过一个共享的稀疏变分自编码器(VAE)进一步压缩到一个统一的潜在空间。随后,桥接扩散的专门形式使得可以从目标潜在代码的部分观测出发,并仅专注于推断缺失的组成部分。最后,一个专用的解码模块从推断出的潜在表示中提取完整的三维人体几何结构并渲染新视角。实验表明,JGA-LBD在几何保真度和外观质量方面均优于当前最先进的方法,包括具有挑战性的野外场景。我们的代码将在 https://github.com/haiantyz/JGA-LBD 公开提供。

0
下载
关闭预览

相关内容

重建四维空间智能:综述
专知会员服务
25+阅读 · 2025年7月29日
【剑桥博士论文】单目 3D 人体重建的概率方法
专知会员服务
11+阅读 · 2025年1月31日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
38+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
立体匹配技术简介
计算机视觉life
28+阅读 · 2019年4月22日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
重建四维空间智能:综述
专知会员服务
25+阅读 · 2025年7月29日
【剑桥博士论文】单目 3D 人体重建的概率方法
专知会员服务
11+阅读 · 2025年1月31日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
38+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
立体匹配技术简介
计算机视觉life
28+阅读 · 2019年4月22日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
一文概览基于深度学习的超分辨率重建架构
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员