ICo3D：一种交互式会话三维虚拟人 (ICo3D: An Interactive Conversational 3D Virtual Human) - 专知论文

会员服务 ·

0

交互 · 虚拟人 · 体模 · 重建 · 多视角 ·

ICo3D: An Interactive Conversational 3D Virtual Human

翻译：ICo3D：一种交互式会话三维虚拟人

Richard Shaw,Youngkyoon Jang,Athanasios Papaioannou,Arthur Moreau,Helisa Dhamo,Zhensong Zhang,Eduardo Pérez-Pellitero

from arxiv, Accepted by International Journal on Computer Vision (IJCV). Project page: https://ico3d.github.io/. This preprint has not undergone peer review or any post-submission improvements or corrections. The Version of Record of this article is published in International Journal of Computer Vision and is available online at https://doi.org/10.1007/s11263-025-02725-8

This work presents Interactive Conversational 3D Virtual Human (ICo3D), a method for generating an interactive, conversational, and photorealistic 3D human avatar. Based on multi-view captures of a subject, we create an animatable 3D face model and a dynamic 3D body model, both rendered by splatting Gaussian primitives. Once merged together, they represent a lifelike virtual human avatar suitable for real-time user interactions. We equip our avatar with an LLM for conversational ability. During conversation, the audio speech of the avatar is used as a driving signal to animate the face model, enabling precise synchronization. We describe improvements to our dynamic Gaussian models that enhance photorealism: SWinGS++ for body reconstruction and HeadGaS++ for face reconstruction, and provide as well a solution to merge the separate face and body models without artifacts. We also present a demo of the complete system, showcasing several use cases of real-time conversation with the 3D avatar. Our approach offers a fully integrated virtual avatar experience, supporting both oral and written form interactions in immersive environments. ICo3D is applicable to a wide range of fields, including gaming, virtual assistance, and personalized education, among others. Project page: https://ico3d.github.io/

翻译：本文提出了一种交互式会话三维虚拟人（ICo3D）方法，用于生成交互式、可会话且具有照片级真实感的三维人体化身。基于对目标对象的多视角捕捉，我们创建了一个可动画化的三维面部模型和一个动态三维身体模型，两者均通过高斯图元溅射进行渲染。合并后，它们构成了一个逼真的虚拟人化身，适用于实时用户交互。我们为该化身配备了大型语言模型以赋予其会话能力。在对话过程中，化身的音频语音被用作驱动信号来动画化面部模型，从而实现精确的同步。我们描述了增强照片级真实感的动态高斯模型改进：用于身体重建的SWinGS++和用于面部重建的HeadGaS++，并提供了无伪影地合并独立面部与身体模型的解决方案。我们还展示了完整系统的演示，呈现了与三维化身进行实时会话的多个用例。我们的方法提供了一个完全集成的虚拟化身体验，支持在沉浸式环境中进行口头和书面形式的交互。ICo3D可广泛应用于游戏、虚拟助手和个性化教育等多个领域。项目页面：https://ico3d.github.io/

0

相关内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

虚拟人行业深度报告：AI驱动虚拟人产业升级，应用场景进一步拓展

虚拟人行业深度报告：AI驱动虚拟人产业升级，应用场景进一步拓展

专知会员服务

50+阅读 · 2023年7月1日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

71+阅读 · 2023年6月25日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

专知会员服务

22+阅读 · 2022年7月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

虚拟数字人应用技术与发展路径

虚拟数字人应用技术与发展路径

专知会员服务

101+阅读 · 2021年11月3日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

高精度三维植物建模技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Automated Testing of Prevalent 3D User Interactions in Virtual Reality Applications

Arxiv

0+阅读 · 1月30日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月28日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

Dynamic Worlds, Dynamic Humans: Generating Virtual Human-Scene Interaction Motion in Dynamic Scenes

Arxiv

0+阅读 · 1月27日

Proc3D: Procedural 3D Generation and Parametric Editing of 3D Shapes with Large Language Models

Arxiv

0+阅读 · 1月18日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation

Arxiv

0+阅读 · 1月15日

Instruction-Driven 3D Facial Expression Generation and Transition

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

虚拟人行业深度报告：AI驱动虚拟人产业升级，应用场景进一步拓展

虚拟人行业深度报告：AI驱动虚拟人产业升级，应用场景进一步拓展

专知会员服务

50+阅读 · 2023年7月1日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

71+阅读 · 2023年6月25日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

专知会员服务

22+阅读 · 2022年7月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

虚拟数字人应用技术与发展路径

虚拟数字人应用技术与发展路径

专知会员服务

101+阅读 · 2021年11月3日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

通用智能体评估的逻辑架构

《无人机与战争：被忽视的环境影响及无人机保护潜力》

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

相关资讯

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Automated Testing of Prevalent 3D User Interactions in Virtual Reality Applications

Arxiv

0+阅读 · 1月30日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月28日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月28日

Dynamic Worlds, Dynamic Humans: Generating Virtual Human-Scene Interaction Motion in Dynamic Scenes

Arxiv

0+阅读 · 1月27日

Proc3D: Procedural 3D Generation and Parametric Editing of 3D Shapes with Large Language Models

Arxiv

0+阅读 · 1月18日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation

Arxiv

0+阅读 · 1月15日

Instruction-Driven 3D Facial Expression Generation and Transition

Arxiv

0+阅读 · 1月13日

相关基金

高精度三维植物建模技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员