Speech-driven gestures and facial animations are fundamental to expressive digital avatars in games, virtual production, and interactive media. However, existing methods are either limited to a single modality for audio motion alignment, failing to fully utilize the potential of massive human motion data, or are constrained by the representation ability and throughput of multimodal models, which makes it difficult to achieve high-quality motion generation or real-time performance. We present UMo, a unified sparse motion modeling architecture for real-time co-speech avatars, which processes text, audio, and motion tokens within a unified formulation. Leveraging a spatially sparse Mixture-of-Experts framework and a temporally sparse, keyframe-centric design, UMo efficiently performs real-time dense reconstruction, enabling temporally coherent and high-fidelity animation generation for both facial expressions and gestures. Furthermore, we implement a multi-stage training strategy with targeted audio augmentation to enhance acoustic diversity and semantic consistency. Consequently, UMo preserves fine-grained speech-motion alignment even under strict latency constraints. Extensive quantitative and qualitative evaluations show that UMo achieves better output quality under low latency and real-time performance constraints, offering a practical solution for high-fidelity real-time co-speech avatars.


翻译:语音驱动的姿态与面部动画是游戏、虚拟制作及交互媒体中富有表现力的数字虚拟角色的基础。然而,现有方法要么局限于单一模态进行音频-运动对齐,未能充分利用海量人体运动数据的潜力,要么受限于多模态模型的表示能力与吞吐量,难以实现高质量运动生成或实时性能。我们提出UMo,一种面向实时共语虚拟角色的统一稀疏运动建模架构,该架构在统一框架中处理文本、音频与运动标记。通过利用空间稀疏的混合专家框架与时域稀疏、基于关键帧的设计,UMo高效执行实时密集重建,实现面部表情与姿态的时域连贯且高保真动画生成。此外,我们采用多阶段训练策略并辅以针对性音频增强,以提升声学多样性与语义一致性。因此,即使在严格延迟约束下,UMo仍能保持精细的语音-运动对齐。大量定量与定性评估表明,UMo在低延迟与实时性能约束下取得了更优的输出质量,为高保真实时共语虚拟角色提供了实用解决方案。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
虚拟人运动控制策略学习方法的研究进展与展望
专知会员服务
19+阅读 · 2024年8月17日
虚拟数字人发展白皮书,37页pdf
专知会员服务
156+阅读 · 2022年2月16日
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
虚拟数字人发展白皮书,37页pdf
专知
10+阅读 · 2022年2月16日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员