Building photorealistic, animatable full-body digital humans remains a longstanding challenge in computer graphics and vision. Recent advances in animatable avatar modeling have largely progressed along two directions: improving the fidelity of dynamic geometry and appearance, or reducing computational complexity to enable deployment on resource-constrained platforms, e.g., VR headsets. However, existing approaches fail to achieve both goals simultaneously: Ultra-high-fidelity avatars typically require substantial computation on server-class GPUs, whereas lightweight avatars often suffer from limited surface dynamics, reduced appearance details, and noticeable artifacts. To bridge this gap, we propose a novel animatable avatar representation, termed Wavelet-guided Multi-level Spatial Factorized Blendshapes, and a corresponding distillation pipeline that transfers motion-aware clothing dynamics and fine-grained appearance details from a pre-trained ultra-high-quality avatar model into a compact, efficient representation. By coupling multi-level wavelet spectral decomposition with low-rank structural factorization in texture space, our method achieves up to 2000X lower computational cost and a 10X smaller model size than the original high-quality teacher avatar model, while preserving visually plausible dynamics and appearance details closely resemble those of the teacher model. Extensive comparisons with state-of-the-art methods show that our approach significantly outperforms existing avatar approaches designed for mobile settings and achieves comparable or superior rendering quality to most approaches that can only run on servers. Importantly, our representation substantially improves the practicality of high-fidelity avatars for immersive applications, achieving over 180 FPS on a desktop PC and real-time native on-device performance at 24 FPS on a standalone Meta Quest 3.


翻译:构建具有照片级真实感且可动画化的全身数字人仍是计算机图形学与视觉领域的长期挑战。近年来,可动画化数字人建模的研究主要沿着两个方向推进:提升动态几何与外观的保真度,或降低计算复杂度以支持在资源受限平台(如VR头显)上的部署。然而,现有方法无法同时实现这两个目标:超高质量数字人通常需要服务器级GPU的大量计算,而轻量化数字人则常受限于有限的表面动态、缺失的外观细节以及明显的伪影。为弥合这一差距,我们提出了一种新颖的可动画化数字人表示——小波引导的多层空间因子化融合变形,并构建了相应的蒸馏流程,将预训练超高质量数字人模型中的运动感知衣物动态与精细外观细节迁移至紧凑高效的表示中。通过将多层小波频谱分解与纹理空间中的低秩结构因子化相结合,我们的方法相较原始高质量教师数字人模型,实现了高达2000倍的计算成本降低和10倍的模型尺寸缩减,同时保留了与教师模型视觉接近的动态与外观细节。与最先进方法的广泛对比表明,我们的方法显著优于专为移动端设计的现有数字人方法,并在渲染质量上达到或超越了大多数仅能运行于服务器端的方法。重要的是,本方法大幅提升了高保真数字人在沉浸式应用中的实用性:在台式PC上可实现超过180 FPS的帧率,并在独立Meta Quest 3设备上以24 FPS实现实时的原生端侧运行性能。

0
下载
关闭预览

相关内容

【ETHZ博士论文】从视觉和语言中学习数字人,248页pdf
专知会员服务
32+阅读 · 2024年12月24日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
人形机器人行业深度:具身智能,迈向广阔蓝海市场
专知会员服务
51+阅读 · 2023年7月2日
虚拟数字人发展白皮书,37页pdf
专知会员服务
156+阅读 · 2022年2月16日
虚拟数字人应用技术与发展路径
专知会员服务
101+阅读 · 2021年11月3日
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
人脸相关算法、数据集、文献资源大列表
专知
16+阅读 · 2019年3月16日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月9日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
3+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员