High-quality 3D avatar modeling faces a critical trade-off between fidelity and generalization. On the one hand, multi-view studio data enables high-fidelity modeling of humans with precise control over expressions and poses, but it struggles to generalize to real-world data due to limited scale and the domain gap between the studio environment and the real world. On the other hand, recent large-scale avatar models trained on millions of in-the-wild samples show promise for generalization across a wide range of identities, yet the resulting avatars are often of low-quality due to inherent 3D ambiguities. To address this, we present Large-Scale Codec Avatars (LCA), a high-fidelity, full-body 3D avatar model that generalizes to world-scale populations in a feedforward manner, enabling efficient inference. Inspired by the success of large language models and vision foundation models, we present, for the first time, a pre/post-training paradigm for 3D avatar modeling at scale: we pretrain on 1M in-the-wild videos to learn broad priors over appearance and geometry, then post-train on high-quality curated data to enhance expressivity and fidelity. LCA generalizes across hair styles, clothing, and demographics while providing precise, fine-grained facial expressions and finger-level articulation control, with strong identity preservation. Notably, we observe emergent generalization to relightability and loose garment support to unconstrained inputs, and zero-shot robustness to stylized imagery, despite the absence of direct supervision.


翻译:高质量三维虚拟化身建模面临保真度与泛化能力之间的关键权衡。一方面,多视角影棚数据能够以精细的表情和姿态控制实现人体高保真建模,但由于数据规模有限且影棚环境与现实世界存在领域差异,难以泛化至真实数据。另一方面,近期基于数百万野外样本训练的大规模虚拟化身模型在跨身份泛化方面展现出潜力,但因三维歧义性导致生成的虚拟化身质量较低。为解决这一问题,我们提出大规模编解码器虚拟化身(LCA)——一种高保真全身三维虚拟化身模型,能以前馈方式泛化至世界级人群规模,支持高效推理。受大型语言模型与视觉基础模型成功的启发,我们首次提出面向大规模三维虚拟化身建模的预训练/后训练范式:首先在100万段野外视频上进行预训练,学习外观与几何的广泛先验;随后在高质量精选数据上进行后训练,以增强表现力与保真度。LCA能够泛化至不同发型、服饰与人群特征,同时提供精细的面部表情与手指级关节控制,并具备强大的身份保持能力。值得注意的是,尽管缺乏直接监督,我们观察到模型对非约束输入展现出重光照与宽松衣物支持的涌现式泛化能力,并对风格化图像具有零样本鲁棒性。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
17+阅读 · 4月30日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
超全总结:神经网络加速之量化模型 | 附带代码
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员