CAG-Avatar：用于高保真头部重建的交叉注意力引导高斯化身 (CAG-Avatar: Cross-Attention Guided Gaussian Avatars for High-Fidelity Head Reconstruction) - 专知论文

会员服务 ·

0

3D · 高保真 · 重建 · 自适应 · 溅射 ·

CAG-Avatar: Cross-Attention Guided Gaussian Avatars for High-Fidelity Head Reconstruction

翻译：CAG-Avatar：用于高保真头部重建的交叉注意力引导高斯化身

Zhe Chang,Haodong Jin,Yan Song,Hui Yu

Creating high-fidelity, real-time drivable 3D head avatars is a core challenge in digital animation. While 3D Gaussian Splashing (3D-GS) offers unprecedented rendering speed and quality, current animation techniques often rely on a "one-size-fits-all" global tuning approach, where all Gaussian primitives are uniformly driven by a single expression code. This simplistic approach fails to unravel the distinct dynamics of different facial regions, such as deformable skin versus rigid teeth, leading to significant blurring and distortion artifacts. We introduce Conditionally-Adaptive Gaussian Avatars (CAG-Avatar), a framework that resolves this key limitation. At its core is a Conditionally Adaptive Fusion Module built on cross-attention. This mechanism empowers each 3D Gaussian to act as a query, adaptively extracting relevant driving signals from the global expression code based on its canonical position. This "tailor-made" conditioning strategy drastically enhances the modeling of fine-grained, localized dynamics. Our experiments confirm a significant improvement in reconstruction fidelity, particularly for challenging regions such as teeth, while preserving real-time rendering performance.

翻译：创建高保真、实时可驱动的3D头部化身是数字动画领域的核心挑战。尽管3D高斯溅射（3D-GS）提供了前所未有的渲染速度与质量，但现有的动画技术通常依赖于一种“一刀切”的全局调节方法，即所有高斯基元均由单一表情编码统一驱动。这种简单化的方法无法解析不同面部区域（如可变形皮肤与刚性牙齿）的独特动态特性，导致严重的模糊和失真伪影。我们提出了条件自适应高斯化身（CAG-Avatar）框架，以解决这一关键局限。其核心是一个基于交叉注意力构建的条件自适应融合模块。该机制使每个3D高斯能够作为查询，根据其规范位置从全局表情编码中自适应地提取相关驱动信号。这种“量身定制”的条件调节策略显著增强了对细粒度局部动态的建模能力。实验证实，我们的方法在重建保真度方面取得了显著提升，尤其对于牙齿等挑战性区域，同时保持了实时渲染性能。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

11+阅读 · 2月8日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

计算机视觉life

13+阅读 · 2019年7月25日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

重磅！头部姿态估计「原理详解 + 实战代码」来啦！

重磅！头部姿态估计「原理详解 + 实战代码」来啦！

计算机视觉life

57+阅读 · 2018年11月29日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

在Cre/loxP基因重组小鼠脑内植入“光控开关”建立偏头痛模型

国家自然科学基金

0+阅读 · 2014年12月31日

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars

Arxiv

0+阅读 · 2月9日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars

Arxiv

0+阅读 · 1月23日

CGS-GAN: 3D Consistent Gaussian Splatting GANs for High Resolution Human Head Synthesis

Arxiv

0+阅读 · 1月22日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月20日

RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation

Arxiv

0+阅读 · 1月15日

ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and TEst-time Generative Adaptation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

迈向下一代 SLAM：基于 3DGS 的 SLAM 技术综述——聚焦性能、鲁棒性及未来方向

专知会员服务

11+阅读 · 2月8日

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

【ICML2025】解决3D语言高斯溅射中的视角依赖语义

专知会员服务

8+阅读 · 2025年6月2日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

【ICLR2025】基于图形引导的图像场景重建：3D高斯散射方法

专知会员服务

13+阅读 · 2025年2月25日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

43+阅读 · 2024年2月18日

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

计算机视觉life

13+阅读 · 2019年7月25日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

重磅！头部姿态估计「原理详解 + 实战代码」来啦！

重磅！头部姿态估计「原理详解 + 实战代码」来啦！

计算机视觉life

57+阅读 · 2018年11月29日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

相关论文

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars

Arxiv

0+阅读 · 2月9日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars

Arxiv

0+阅读 · 1月23日

CGS-GAN: 3D Consistent Gaussian Splatting GANs for High Resolution Human Head Synthesis

Arxiv

0+阅读 · 1月22日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月20日

RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation

Arxiv

0+阅读 · 1月15日

ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and TEst-time Generative Adaptation

Arxiv

0+阅读 · 1月15日

相关基金

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

在Cre/loxP基因重组小鼠脑内植入“光控开关”建立偏头痛模型

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员