We introduce Dream, Lift, Animate (DLA), a novel framework that reconstructs animatable 3D human avatars from a single image. This is achieved by leveraging multi-view generation, 3D Gaussian lifting, and pose-aware UV-space mapping of 3D Gaussians. Given an image, we first dream plausible multi-views using a video diffusion model, capturing rich geometric and appearance details. These views are then lifted into unstructured 3D Gaussians. To enable animation, we propose a transformer-based encoder that models global spatial relationships and projects these Gaussians into a structured latent representation aligned with the UV space of a parametric body model. This latent code is decoded into UV-space Gaussians that can be animated via body-driven deformation and rendered conditioned on pose and viewpoint. By anchoring Gaussians to the UV manifold, our method ensures consistency during animation while preserving fine visual details. DLA enables real-time rendering and intuitive editing without requiring post-processing. Our method outperforms state-of-the-art approaches on the ActorsHQ and 4D-Dress datasets in both perceptual quality and photometric accuracy. By combining the generative strengths of video diffusion models with a pose-aware UV-space Gaussian mapping, DLA bridges the gap between unstructured 3D representations and high-fidelity, animation-ready avatars.


翻译:我们提出了梦想、提升、动画化(Dream, Lift, Animate,DLA)这一新颖框架,它能够从单张图像重建可动画化的三维人体化身。该框架通过利用多视角生成、三维高斯提升以及三维高斯的姿态感知UV空间映射来实现这一目标。给定一张图像,我们首先使用视频扩散模型生成合理的多视角图像,以捕捉丰富的几何和外观细节。这些视角随后被提升为无结构的三维高斯分布。为了实现动画化,我们提出了一种基于Transformer的编码器,该编码器建模全局空间关系,并将这些高斯分布投影到与参数化人体模型的UV空间对齐的结构化潜在表示中。这个潜在编码被解码为UV空间中的高斯分布,这些分布可以通过身体驱动的形变进行动画化,并根据姿态和视点进行渲染。通过将高斯分布锚定在UV流形上,我们的方法确保了动画过程中的一致性,同时保留了精细的视觉细节。DLA支持实时渲染和直观编辑,无需后处理。在ActorsHQ和4D-Dress数据集上,我们的方法在感知质量和光度精度方面均优于现有最先进方法。通过结合视频扩散模型的生成能力与姿态感知的UV空间高斯映射,DLA弥合了无结构三维表示与高保真、可动画化化身之间的差距。

0
下载
关闭预览

相关内容

正态(或高斯或高斯或拉普拉斯-高斯)分布是实值随机变量的一种连续概率分布。高斯分布具有一些独特的属性,这些属性在分析研究中很有价值。 例如,法线偏差的固定集合的任何线性组合就是法线偏差。 当相关变量呈正态分布时,许多结果和方法(例如不确定性的传播和最小二乘参数拟合)都可以以显式形式进行分析得出。
【AAAI2026】无限叙事:免训练的角色一致性文生图技术
专知会员服务
8+阅读 · 2025年11月18日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员