SentiAvatar: Towards Expressive and Interactive Digital Humans - 专知论文

会员服务 ·

0

SentiAvatar: Towards Expressive and Interactive Digital Humans

翻译：SentiAvatar：迈向富有表现力与交互性的数字人

Chuhao Jin,Rui Zhang,Qingzhe Gao,Haoyu Shi,Dayu Wu,Yichen Jiang,Yihan Wu,Ruihua Song

from arxiv, 19 pages, 4 figures

We present SentiAvatar, a framework for building expressive interactive 3D digital humans, and use it to create SuSu, a virtual character that speaks, gestures, and emotes in real time. Achieving such a system remains challenging, as it requires jointly addressing three key problems: the lack of large-scale, high-quality multimodal data, robust semantic-to-motion mapping, and fine-grained frame-level motion-prosody synchronization. To solve these problems, first, we build SuSuInterActs (21K clips, 37 hours), a dialogue corpus captured via optical motion capture around a single character with synchronized speech, full-body motion, and facial expressions. Second, we pre-train a Motion Foundation Model on 200K+ motion sequences, equipping it with rich action priors that go well beyond the conversation. We then propose an audio-aware plan-then-infill architecture that decouples sentence-level semantic planning from frame-level prosody-driven interpolation, so that generated motions are both semantically appropriate and rhythmically aligned with speech. Experiments show that SentiAvatar achieves state-of-the-art on both SuSuInterActs (R@1 43.64%, nearly 2 times the best baseline) and BEATv2 (FGD 4.941, BC 8.078), producing 6s of output in 0.3s with unlimited multi-turn streaming. The source code, model, and dataset are available at https://sentiavatar.github.io.

翻译：我们提出了SentiAvatar，一个用于构建富有表现力的交互式三维数字人的框架，并利用它创建了SuSu——一个能够实时说话、做手势和表达情感的虚拟角色。实现这样的系统仍具有挑战性，因为它需要共同解决三个关键问题：缺乏大规模、高质量的多模态数据、鲁棒的语义到动作映射，以及细粒度的帧级动作与韵律同步。为解决这些问题，首先，我们构建了SuSuInterActs（21K片段，37小时），这是一个通过光学动作捕捉系统围绕单个角色采集的对话语料库，包含同步的语音、全身动作和面部表情。其次，我们在20万+动作序列上预训练了一个动作基础模型，使其具备远超对话场景的丰富动作先验知识。随后，我们提出了一种音频感知的“规划-填充”架构，将句子级别的语义规划与帧级别的韵律驱动插值解耦，使得生成的动作既语义恰当，又与语音节奏对齐。实验表明，SentiAvatar在SuSuInterActs（R@1 43.64%，近乎最优基线的2倍）和BEATv2（FGD 4.941，BC 8.078）上均达到最优性能，能在0.3秒内生成6秒的输出，并支持无限的多轮流式生成。源代码、模型和数据集请见https://sentiavatar.github.io。

0

相关内容

人类与人工智能战斗飞行员的交互研究

人类与人工智能战斗飞行员的交互研究

专知会员服务

27+阅读 · 2025年10月23日

通用型虚拟智能体：关于跨数字平台自主智能体的综述

通用型虚拟智能体：关于跨数字平台自主智能体的综述

专知会员服务

35+阅读 · 2024年11月20日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

重磅！腾讯发布《数字人产业发展趋势报告（2023）》｜102页报告全文附下载

重磅！腾讯发布《数字人产业发展趋势报告（2023）》｜102页报告全文附下载

专知会员服务

96+阅读 · 2022年12月2日

2022中国虚拟数字人商业应用前景展望研究报告（附报告），45页pdf

2022中国虚拟数字人商业应用前景展望研究报告（附报告），45页pdf

专知会员服务

53+阅读 · 2022年11月10日

商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望

商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望

专知会员服务

72+阅读 · 2022年5月5日

虚拟数字人，哪家最强？中国传媒大学发布《中国虚拟数字人影响力指数报告》，41页pdf

虚拟数字人，哪家最强？中国传媒大学发布《中国虚拟数字人影响力指数报告》，41页pdf

专知会员服务

76+阅读 · 2022年3月3日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知会员服务

156+阅读 · 2022年2月16日

虚拟数字人应用技术与发展路径

虚拟数字人应用技术与发展路径

专知会员服务

101+阅读 · 2021年11月3日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

数字素养的研究现状与启示

数字素养的研究现状与启示

MOOC

21+阅读 · 2018年3月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

西夏文物三维数字化与虚拟复原方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 5月4日

MUA: Mobile Ultra-detailed Animatable Avatars

Arxiv

0+阅读 · 4月20日

Designing Digital Humans with Ambient Intelligence

Arxiv

0+阅读 · 4月8日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality

Arxiv

0+阅读 · 3月15日

Towards Interactive Intelligence for Digital Humans

Arxiv

0+阅读 · 3月13日

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Arxiv

0+阅读 · 3月12日

NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction

Arxiv

0+阅读 · 3月12日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

人类与人工智能战斗飞行员的交互研究

人类与人工智能战斗飞行员的交互研究

专知会员服务

27+阅读 · 2025年10月23日

通用型虚拟智能体：关于跨数字平台自主智能体的综述

通用型虚拟智能体：关于跨数字平台自主智能体的综述

专知会员服务

35+阅读 · 2024年11月20日

多模态数字人建模、合成与驱动综述

多模态数字人建模、合成与驱动综述

专知会员服务

30+阅读 · 2024年9月19日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

重磅！腾讯发布《数字人产业发展趋势报告（2023）》｜102页报告全文附下载

重磅！腾讯发布《数字人产业发展趋势报告（2023）》｜102页报告全文附下载

专知会员服务

96+阅读 · 2022年12月2日

2022中国虚拟数字人商业应用前景展望研究报告（附报告），45页pdf

2022中国虚拟数字人商业应用前景展望研究报告（附报告），45页pdf

专知会员服务

53+阅读 · 2022年11月10日

商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望

商汤《企业级AI数字人数字经济发展“新动能”》阐述AI数字人未来十大展望

专知会员服务

72+阅读 · 2022年5月5日

虚拟数字人，哪家最强？中国传媒大学发布《中国虚拟数字人影响力指数报告》，41页pdf

虚拟数字人，哪家最强？中国传媒大学发布《中国虚拟数字人影响力指数报告》，41页pdf

专知会员服务

76+阅读 · 2022年3月3日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知会员服务

156+阅读 · 2022年2月16日

虚拟数字人应用技术与发展路径

虚拟数字人应用技术与发展路径

专知会员服务

101+阅读 · 2021年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

数字素养的研究现状与启示

数字素养的研究现状与启示

MOOC

21+阅读 · 2018年3月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 5月4日

MUA: Mobile Ultra-detailed Animatable Avatars

Arxiv

0+阅读 · 4月20日

Designing Digital Humans with Ambient Intelligence

Arxiv

0+阅读 · 4月8日

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

Arxiv

0+阅读 · 3月30日

Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality

Arxiv

0+阅读 · 3月15日

Towards Interactive Intelligence for Digital Humans

Arxiv

0+阅读 · 3月13日

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Arxiv

0+阅读 · 3月12日

NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction

Arxiv

0+阅读 · 3月12日

SIAgent: Spatial Interaction Agent via LLM-powered Eye-Hand Motion Intent Understanding in VR

Arxiv

0+阅读 · 2月28日

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

Arxiv

0+阅读 · 2月25日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

西夏文物三维数字化与虚拟复原方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员