Achieving consistent and high-fidelity geometry and appearance reconstruction of 3D digital humans from a single RGB image is inherently a challenging task. Existing studies typically resort to decoupled pipelines for geometry estimation and appearance synthesis, often hindering unified reconstruction and causing inconsistencies. This paper introduces \textbf{JGA-LBD}, a novel framework that unifies the modeling of geometry and appearance into a joint latent representation and formulates the generation process as bridge diffusion. Observing that directly integrating heterogeneous input conditions (e.g., depth maps, SMPL models) leads to substantial training difficulties, we unify all conditions into the 3D Gaussian representations, which can be further compressed into a unified latent space through a shared sparse variational autoencoder (VAE). Subsequently, the specialized form of bridge diffusion enables to start with a partial observation of the target latent code and solely focuses on inferring the missing components. Finally, a dedicated decoding module extracts the complete 3D human geometric structure and renders novel views from the inferred latent representation. Experiments demonstrate that JGA-LBD outperforms current state-of-the-art approaches in terms of both geometry fidelity and appearance quality, including challenging in-the-wild scenarios. Our code will be made publicly available at https://github.com/haiantyz/JGA-LBD.


翻译:从单张RGB图像实现三维数字人体几何与外观的一致高保真重建本质上是一项具有挑战性的任务。现有研究通常采用解耦的流程分别进行几何估计与外观合成,这往往阻碍了统一重建并导致不一致性。本文提出 \textbf{JGA-LBD},一个新颖的框架,它将几何与外观的建模统一到一个联合潜在表示中,并将生成过程表述为桥接扩散。我们观察到,直接整合异构输入条件(如深度图、SMPL模型)会导致显著的训练困难,因此我们将所有条件统一到3D高斯表示中,这些表示可以通过一个共享的稀疏变分自编码器(VAE)进一步压缩到一个统一的潜在空间。随后,桥接扩散的专门形式使得可以从目标潜在代码的部分观测出发,并仅专注于推断缺失的组成部分。最后,一个专用的解码模块从推断出的潜在表示中提取完整的三维人体几何结构并渲染新视角。实验表明,JGA-LBD在几何保真度和外观质量方面均优于当前最先进的方法,包括具有挑战性的野外场景。我们的代码将在 https://github.com/haiantyz/JGA-LBD 公开提供。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员