Given a single in-the-wild human photo, it remains a challenging task to reconstruct a high-fidelity 3D human model. Existing methods face difficulties including a) the varying body proportions captured by in-the-wild human images; b) diverse personal belongings within the shot; and c) ambiguities in human postures and inconsistency in human textures. In addition, the scarcity of high-quality human data intensifies the challenge. To address these problems, we propose a Generalizable image-to-3D huMAN reconstruction framework, dubbed GeneMAN, building upon a comprehensive multi-source collection of high-quality human data, including 3D scans, multi-view videos, single photos, and our generated synthetic human data. GeneMAN encompasses three key modules. 1) Without relying on parametric human models (e.g., SMPL), GeneMAN first trains a human-specific text-to-image diffusion model and a view-conditioned diffusion model, serving as GeneMAN 2D human prior and 3D human prior for reconstruction, respectively. 2) With the help of the pretrained human prior models, the Geometry Initialization-&-Sculpting pipeline is leveraged to recover high-quality 3D human geometry given a single image. 3) To achieve high-fidelity 3D human textures, GeneMAN employs the Multi-Space Texture Refinement pipeline, consecutively refining textures in the latent and the pixel spaces. Extensive experimental results demonstrate that GeneMAN could generate high-quality 3D human models from a single image input, outperforming prior state-of-the-art methods. Notably, GeneMAN could reveal much better generalizability in dealing with in-the-wild images, often yielding high-quality 3D human models in natural poses with common items, regardless of the body proportions in the input images.


翻译:给定一张真实场景下的单人照片,重建高保真度的三维人体模型仍然是一项具有挑战性的任务。现有方法面临诸多困难,包括:a) 真实人体图像所捕捉到的多变人体比例;b) 拍摄画面中多样的个人物品;c) 人体姿态的模糊性以及人体纹理的不一致性。此外,高质量人体数据的稀缺性加剧了这一挑战。为解决这些问题,我们提出了一种可泛化的图像到三维人体重建框架,命名为 GeneMAN。该框架基于一个全面的多源高质量人体数据集合构建,包括三维扫描数据、多视角视频、单张照片以及我们生成的合成人体数据。GeneMAN 包含三个关键模块。1) 在不依赖参数化人体模型(例如 SMPL)的情况下,GeneMAN 首先训练了一个人体特定的文本到图像扩散模型和一个视角条件扩散模型,分别作为 GeneMAN 重建所需的二维人体先验和三维人体先验。2) 借助预训练的人体先验模型,利用几何初始化与雕刻流水线,从单张图像中恢复高质量的三维人体几何形状。3) 为实现高保真度的三维人体纹理,GeneMAN 采用了多空间纹理细化流水线,在潜空间和像素空间中连续细化纹理。大量的实验结果表明,GeneMAN 能够从单张图像输入生成高质量的三维人体模型,其性能优于先前的最先进方法。值得注意的是,GeneMAN 在处理真实场景图像时展现出更好的泛化能力,无论输入图像中的人体比例如何,通常都能生成具有自然姿态和常见物品的高质量三维人体模型。

0
下载
关闭预览

相关内容

深度学习的多视角三维重建技术综述
专知会员服务
20+阅读 · 2025年6月7日
【剑桥博士论文】单目 3D 人体重建的概率方法
专知会员服务
11+阅读 · 2025年1月31日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
非刚性场景三维重建的最新趋势:最新技术
专知会员服务
19+阅读 · 2024年5月16日
【CMU博士论文】稀疏视角三维重建,147页pdf
专知会员服务
32+阅读 · 2024年5月16日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
38+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员