We present SentiAvatar, a framework for building expressive interactive 3D digital humans, and use it to create SuSu, a virtual character that speaks, gestures, and emotes in real time. Achieving such a system remains challenging, as it requires jointly addressing three key problems: the lack of large-scale, high-quality multimodal data, robust semantic-to-motion mapping, and fine-grained frame-level motion-prosody synchronization. To solve these problems, first, we build SuSuInterActs (21K clips, 37 hours), a dialogue corpus captured via optical motion capture around a single character with synchronized speech, full-body motion, and facial expressions. Second, we pre-train a Motion Foundation Model on 200K+ motion sequences, equipping it with rich action priors that go well beyond the conversation. We then propose an audio-aware plan-then-infill architecture that decouples sentence-level semantic planning from frame-level prosody-driven interpolation, so that generated motions are both semantically appropriate and rhythmically aligned with speech. Experiments show that SentiAvatar achieves state-of-the-art on both SuSuInterActs (R@1 43.64%, nearly 2 times the best baseline) and BEATv2 (FGD 4.941, BC 8.078), producing 6s of output in 0.3s with unlimited multi-turn streaming. The source code, model, and dataset are available at https://sentiavatar.github.io.


翻译:我们提出了SentiAvatar,一个用于构建富有表现力的交互式三维数字人的框架,并利用它创建了SuSu——一个能够实时说话、做手势和表达情感的虚拟角色。实现这样的系统仍具有挑战性,因为它需要共同解决三个关键问题:缺乏大规模、高质量的多模态数据、鲁棒的语义到动作映射,以及细粒度的帧级动作与韵律同步。为解决这些问题,首先,我们构建了SuSuInterActs(21K片段,37小时),这是一个通过光学动作捕捉系统围绕单个角色采集的对话语料库,包含同步的语音、全身动作和面部表情。其次,我们在20万+动作序列上预训练了一个动作基础模型,使其具备远超对话场景的丰富动作先验知识。随后,我们提出了一种音频感知的“规划-填充”架构,将句子级别的语义规划与帧级别的韵律驱动插值解耦,使得生成的动作既语义恰当,又与语音节奏对齐。实验表明,SentiAvatar在SuSuInterActs(R@1 43.64%,近乎最优基线的2倍)和BEATv2(FGD 4.941,BC 8.078)上均达到最优性能,能在0.3秒内生成6秒的输出,并支持无限的多轮流式生成。源代码、模型和数据集请见https://sentiavatar.github.io。

0
下载
关闭预览

相关内容

人类与人工智能战斗飞行员的交互研究
专知会员服务
27+阅读 · 2025年10月23日
通用型虚拟智能体:关于跨数字平台自主智能体的综述
专知会员服务
35+阅读 · 2024年11月20日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
虚拟数字人发展白皮书,37页pdf
专知会员服务
156+阅读 · 2022年2月16日
虚拟数字人应用技术与发展路径
专知会员服务
101+阅读 · 2021年11月3日
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
数字素养的研究现状与启示
MOOC
21+阅读 · 2018年3月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
数字素养的研究现状与启示
MOOC
21+阅读 · 2018年3月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员