Creating photorealistic 3D head avatars from limited input has become increasingly important for applications in virtual reality, telepresence, and digital entertainment. While recent advances like neural rendering and 3D Gaussian splatting have enabled high-quality digital human avatar creation and animation, most methods rely on multiple images or multi-view inputs, limiting their practicality for real-world use. In this paper, we propose SEGA, a novel approach for Single-imagE-based 3D drivable Gaussian head Avatar creation that combines generalized prior models with a new hierarchical UV-space Gaussian Splatting framework. SEGA seamlessly combines priors derived from large-scale 2D datasets with 3D priors learned from multi-view, multi-expression, and multi-ID data, achieving robust generalization to unseen identities while ensuring 3D consistency across novel viewpoints and expressions. We further present a hierarchical UV-space Gaussian Splatting framework that leverages FLAME-based structural priors and employs a dual-branch architecture to disentangle dynamic and static facial components effectively. The dynamic branch encodes expression-driven fine details, while the static branch focuses on expression-invariant regions, enabling efficient parameter inference and precomputation. This design maximizes the utility of limited 3D data and achieves real-time performance for animation and rendering. Additionally, SEGA performs person-specific fine-tuning to further enhance the fidelity and realism of the generated avatars. Experiments show our method outperforms state-of-the-art approaches in generalization ability, identity preservation, and expression realism, advancing one-shot avatar creation for practical applications.


翻译:从有限输入创建逼真的三维头部化身对于虚拟现实、远程呈现和数字娱乐等应用日益重要。尽管神经渲染和三维高斯溅射等最新进展已实现高质量数字人体化身的创建与动画,但大多数方法依赖多张图像或多视角输入,限制了其在实际应用中的可行性。本文提出SEGA,一种基于单张图像的可驱动三维高斯头部化身创建新方法,该方法将广义先验模型与新颖的分层UV空间高斯溅射框架相结合。SEGA无缝整合了从大规模二维数据集衍生的先验与从多视角、多表情、多身份数据学习的三维先验,在确保跨新视角和新表情三维一致性的同时,实现了对未见身份的鲁棒泛化。我们进一步提出一种分层UV空间高斯溅射框架,该框架利用基于FLAME的结构先验,并采用双分支架构有效解耦动态与静态面部成分。动态分支编码表情驱动的精细细节,而静态分支专注于表情不变区域,从而实现高效的参数推断与预计算。此设计最大限度地利用了有限的三维数据,并实现了动画与渲染的实时性能。此外,SEGA执行针对特定人物的微调,以进一步提升生成化身的保真度与真实感。实验表明,我们的方法在泛化能力、身份保持和表情真实感方面优于现有先进方法,推动了单次化身创建在实际应用中的进展。

0
下载
关闭预览

相关内容

三维高斯泼溅应用综述:分割、编辑与生成
专知会员服务
15+阅读 · 2025年8月14日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
机器人中的三维高斯溅射:综述
专知会员服务
29+阅读 · 2024年10月17日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员