Audio-driven facial animation is essential for immersive digital interaction, yet existing frameworks fail to reconcile real-time streaming with high-fidelity personalization. Current methods often rely on latency-inducing audio look-ahead, or require high user compliance to pre-encode static embeddings that fails to capture dynamic idiosyncrasies. We present an end-to-end causal framework for personalizing causal facial motion generation via dynamic multi-modal style retrieval, enabling ultra-low latency while uniquely leveraging unstructured style references. We introduce two key innovations: (1) a temporal hierarchical motion representation that captures global temporal context and high-frequency details while maintaining decoding causality, and (2) a multi-modal style retriever that jointly queries audio and motion to dynamically extract stylistic priors without breaking causality. This mechanism allows for scalable personalization with total flexibility regarding the number and contents of templates. By integrating these components into a causal autoregressive architecture, our method significantly outperforms state-of-the-art approaches in lip-sync accuracy, identity consistency, and perceived realism, supported by extensive quantitative evaluations and user studies.


翻译:音频驱动面部动画对于沉浸式数字交互至关重要,但现有框架难以兼顾实时流式传输与高保真个性化。当前方法通常依赖引发延迟的音频超前处理,或要求用户高度配合预编码静态嵌入,无法捕获动态习癖。我们提出一种端到端因果框架,通过动态多模态风格检索实现个性化因果面部运动生成,在保持超低延迟的同时独特地利用非结构化风格参考。我们引入两项关键创新:(1) 时序分层运动表征,在保持解码因果性的同时捕获全局时序上下文与高频细节;(2) 多模态风格检索器,联合查询音频与运动以动态提取风格先验,且不违反因果性。该机制支持可扩展的个性化,对模板数量与内容具有完全灵活性。通过将这些组件集成到因果自回归架构中,我们的方法在唇形同步精度、身份一致性与感知真实感方面显著超越现有最优方法,这一结论得到大量定量评估与用户研究的支持。

0
下载
关闭预览

相关内容

【NUS博士论文】视频语义理解的因果模型
专知会员服务
10+阅读 · 2025年3月19日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
38+阅读 · 2024年10月30日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
专知会员服务
16+阅读 · 2021年5月13日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【NUS博士论文】视频语义理解的因果模型
专知会员服务
10+阅读 · 2025年3月19日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
38+阅读 · 2024年10月30日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
专知会员服务
16+阅读 · 2021年5月13日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员