UIKA: Fast Universal Head Avatar from Pose-Free Images - 专知论文

会员服务 ·

0

多视角 · 对应关系 · 设计 · 智能手机 · 视频 ·

UIKA: Fast Universal Head Avatar from Pose-Free Images

翻译：UIKA：基于无姿态图像的快速通用头部虚拟形象

Zijian Wu,Boyao Zhou,Liangxiao Hu,Hongyu Liu,Yuan Sun,Xuan Wang,Xun Cao,Yujun Shen,Hao Zhu

from arxiv, Project page: https://zijian-wu.github.io/uika-page/

We present UIKA, a feed-forward animatable Gaussian head model from an arbitrary number of unposed inputs, including a single image, multi-view captures, and smartphone-captured videos. Unlike the traditional avatar method, which requires a studio-level multi-view capture system and reconstructs a human-specific model through a long-time optimization process, we rethink the task through the lenses of model representation, network design, and data preparation. First, we introduce a UV-guided avatar modeling strategy, in which each input image is associated with a pixel-wise facial correspondence estimation. Such correspondence estimation allows us to reproject each valid pixel color from screen space to UV space, which is independent of camera pose and character expression. Furthermore, we design learnable UV tokens on which the attention mechanism can be applied at both the screen and UV levels. The learned UV tokens can be decoded into canonical Gaussian attributes using aggregated UV information from all input views. To train our large avatar model, we additionally prepare a large-scale, identity-rich synthetic training dataset. Our method significantly outperforms existing approaches in both monocular and multi-view settings. See more details in our project page: https://zijian-wu.github.io/uika-page/

翻译：本文提出UIKA，一种基于任意数量无姿态输入（包括单张图像、多视角采集图像及智能手机拍摄视频）的前馈式可动画化高斯头部模型。不同于传统虚拟形象方法需要工作室级多视角采集系统并通过长时间优化过程重建人物特定模型，我们从模型表示、网络设计和数据准备三个维度重新审视该任务。首先，我们引入UV引导的虚拟形象建模策略，将每张输入图像与像素级面部对应关系估计相关联。这种对应关系估计使我们能够将每个有效像素颜色从屏幕空间重投影至与相机姿态和角色表情无关的UV空间。此外，我们设计了可学习的UV标记，可在屏幕和UV两个层级应用注意力机制。经过学习的UV标记可利用所有输入视角聚合的UV信息解码为规范高斯属性。为训练大规模虚拟形象模型，我们还构建了大规模、身份特征丰富的合成训练数据集。我们的方法在单目和多视角设置下均显著优于现有方法。更多细节详见项目页面：https://zijian-wu.github.io/uika-page/

0

相关内容

多视角

【Hugging Face】开源视频生成模型的发展现状，31页ppt

【Hugging Face】开源视频生成模型的发展现状，31页ppt

专知会员服务

18+阅读 · 2025年8月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR2021】MagFace:一种用于人脸识别和质量评估的通用表示

专知会员服务

29+阅读 · 2021年5月26日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

专知会员服务

15+阅读 · 2019年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

Github项目推荐 | 用TensorFlow 2.0实现CartoonGAN图片卡通化

Github项目推荐 | 用TensorFlow 2.0实现CartoonGAN图片卡通化

AI研习社

14+阅读 · 2019年6月9日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

GitHub项目推荐 | 深度抠图(Keras/TensorFlow/OpenCV) - Deep Image Matting

GitHub项目推荐 | 深度抠图(Keras/TensorFlow/OpenCV) - Deep Image Matting

AI研习社

70+阅读 · 2018年12月29日

终于等到你—用户画像解决方案课程上线了！

终于等到你—用户画像解决方案课程上线了！

R语言中文社区

10+阅读 · 2018年10月16日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

看完后，别再说自己不懂用户画像了

看完后，别再说自己不懂用户画像了

R语言中文社区

15+阅读 · 2017年8月28日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

HairWeaver: Few-Shot Photorealistic Hair Motion Synthesis with Sim-to-Real Guided Video Diffusion

Arxiv

0+阅读 · 2月11日

PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction

Arxiv

0+阅读 · 2月5日

OFERA: Blendshape-driven 3D Gaussian Control for Occluded Facial Expression to Realistic Avatars in VR

Arxiv

0+阅读 · 2月2日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars

Arxiv

0+阅读 · 1月23日

CAG-Avatar: Cross-Attention Guided Gaussian Avatars for High-Fidelity Head Reconstruction

Arxiv

0+阅读 · 1月21日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月20日

ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and TEst-time Generative Adaptation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【Hugging Face】开源视频生成模型的发展现状，31页ppt

【Hugging Face】开源视频生成模型的发展现状，31页ppt

专知会员服务

18+阅读 · 2025年8月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR2021】MagFace:一种用于人脸识别和质量评估的通用表示

专知会员服务

29+阅读 · 2021年5月26日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

专知会员服务

15+阅读 · 2019年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

Github项目推荐 | 用TensorFlow 2.0实现CartoonGAN图片卡通化

Github项目推荐 | 用TensorFlow 2.0实现CartoonGAN图片卡通化

AI研习社

14+阅读 · 2019年6月9日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

GitHub项目推荐 | 深度抠图(Keras/TensorFlow/OpenCV) - Deep Image Matting

GitHub项目推荐 | 深度抠图(Keras/TensorFlow/OpenCV) - Deep Image Matting

AI研习社

70+阅读 · 2018年12月29日

终于等到你—用户画像解决方案课程上线了！

终于等到你—用户画像解决方案课程上线了！

R语言中文社区

10+阅读 · 2018年10月16日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

看完后，别再说自己不懂用户画像了

看完后，别再说自己不懂用户画像了

R语言中文社区

15+阅读 · 2017年8月28日

相关论文

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

Arxiv

0+阅读 · 2月19日

OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Arxiv

0+阅读 · 2月12日

HairWeaver: Few-Shot Photorealistic Hair Motion Synthesis with Sim-to-Real Guided Video Diffusion

Arxiv

0+阅读 · 2月11日

PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction

Arxiv

0+阅读 · 2月5日

OFERA: Blendshape-driven 3D Gaussian Control for Occluded Facial Expression to Realistic Avatars in VR

Arxiv

0+阅读 · 2月2日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 2月2日

ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars

Arxiv

0+阅读 · 1月23日

CAG-Avatar: Cross-Attention Guided Gaussian Avatars for High-Fidelity Head Reconstruction

Arxiv

0+阅读 · 1月21日

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

Arxiv

0+阅读 · 1月20日

ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and TEst-time Generative Adaptation

Arxiv

0+阅读 · 1月15日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员