基于桥接扩散的统一潜在空间中联合几何-外观人体重建 (Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion) - 专知论文

会员服务 ·

0

潜在 · 重建 · 表示 · 一致 · 变分自编码 ·

Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion

翻译：基于桥接扩散的统一潜在空间中联合几何-外观人体重建

Yingzhi Tang,Qijian Zhang,Junhui Hou

Achieving consistent and high-fidelity geometry and appearance reconstruction of 3D digital humans from a single RGB image is inherently a challenging task. Existing studies typically resort to decoupled pipelines for geometry estimation and appearance synthesis, often hindering unified reconstruction and causing inconsistencies. This paper introduces \textbf{JGA-LBD}, a novel framework that unifies the modeling of geometry and appearance into a joint latent representation and formulates the generation process as bridge diffusion. Observing that directly integrating heterogeneous input conditions (e.g., depth maps, SMPL models) leads to substantial training difficulties, we unify all conditions into the 3D Gaussian representations, which can be further compressed into a unified latent space through a shared sparse variational autoencoder (VAE). Subsequently, the specialized form of bridge diffusion enables to start with a partial observation of the target latent code and solely focuses on inferring the missing components. Finally, a dedicated decoding module extracts the complete 3D human geometric structure and renders novel views from the inferred latent representation. Experiments demonstrate that JGA-LBD outperforms current state-of-the-art approaches in terms of both geometry fidelity and appearance quality, including challenging in-the-wild scenarios. Our code will be made publicly available at https://github.com/haiantyz/JGA-LBD.

翻译：从单张RGB图像实现三维数字人体几何与外观的一致高保真重建本质上是一项具有挑战性的任务。现有研究通常采用解耦的流程分别进行几何估计与外观合成，这往往阻碍了统一重建并导致不一致性。本文提出 \textbf{JGA-LBD}，一个新颖的框架，它将几何与外观的建模统一到一个联合潜在表示中，并将生成过程表述为桥接扩散。我们观察到，直接整合异构输入条件（如深度图、SMPL模型）会导致显著的训练困难，因此我们将所有条件统一到3D高斯表示中，这些表示可以通过一个共享的稀疏变分自编码器（VAE）进一步压缩到一个统一的潜在空间。随后，桥接扩散的专门形式使得可以从目标潜在代码的部分观测出发，并仅专注于推断缺失的组成部分。最后，一个专用的解码模块从推断出的潜在表示中提取完整的三维人体几何结构并渲染新视角。实验表明，JGA-LBD在几何保真度和外观质量方面均优于当前最先进的方法，包括具有挑战性的野外场景。我们的代码将在 https://github.com/haiantyz/JGA-LBD 公开提供。

0

相关内容

重建四维空间智能：综述

重建四维空间智能：综述

专知会员服务

25+阅读 · 2025年7月29日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

【剑桥博士论文】单目 3D 人体重建的概率方法

【剑桥博士论文】单目 3D 人体重建的概率方法

专知会员服务

11+阅读 · 2025年1月31日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

38+阅读 · 2023年9月4日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【CGAN论文笔记强烈推荐】基于CGAN的人脸深度图估计： Face Depth Estimation With Conditional Generative Adversarial Networks

专知会员服务

24+阅读 · 2020年1月8日

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

专知会员服务

23+阅读 · 2019年11月10日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

立体匹配技术简介

立体匹配技术简介

计算机视觉life

28+阅读 · 2019年4月22日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

Spherical Geometry Diffusion: Generating High-quality 3D Face Geometry via Sphere-anchored Representations

Arxiv

0+阅读 · 1月19日

ObjSplat: Geometry-Aware Gaussian Surfels for Active Object Reconstruction

Arxiv

0+阅读 · 1月11日

LayerGS: Decomposition and Inpainting of Layered 3D Human Avatars via 2D Gaussian Splatting

Arxiv

0+阅读 · 1月9日

360-GeoGS: Geometrically Consistent Feed-Forward 3D Gaussian Splatting Reconstruction for 360 Images

Arxiv

0+阅读 · 1月5日

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

变分自编码

相关VIP内容

重建四维空间智能：综述

重建四维空间智能：综述

专知会员服务

25+阅读 · 2025年7月29日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

【剑桥博士论文】单目 3D 人体重建的概率方法

【剑桥博士论文】单目 3D 人体重建的概率方法

专知会员服务

11+阅读 · 2025年1月31日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

38+阅读 · 2023年9月4日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【CGAN论文笔记强烈推荐】基于CGAN的人脸深度图估计： Face Depth Estimation With Conditional Generative Adversarial Networks

专知会员服务

24+阅读 · 2020年1月8日

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

专知会员服务

23+阅读 · 2019年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

立体匹配技术简介

立体匹配技术简介

计算机视觉life

28+阅读 · 2019年4月22日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

相关论文

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

Spherical Geometry Diffusion: Generating High-quality 3D Face Geometry via Sphere-anchored Representations

Arxiv

0+阅读 · 1月19日

ObjSplat: Geometry-Aware Gaussian Surfels for Active Object Reconstruction

Arxiv

0+阅读 · 1月11日

LayerGS: Decomposition and Inpainting of Layered 3D Human Avatars via 2D Gaussian Splatting

Arxiv

0+阅读 · 1月9日

360-GeoGS: Geometrically Consistent Feed-Forward 3D Gaussian Splatting Reconstruction for 360 Images

Arxiv

0+阅读 · 1月5日

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting

Arxiv

0+阅读 · 1月5日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员