In order to be widely applicable, speech-driven 3D head avatars must articulate their lips in accordance with speech, while also conveying the appropriate emotions with dynamically changing facial expressions. The key problem is that deterministic models produce high-quality lip-sync but without rich expressions, whereas stochastic models generate diverse expressions but with lower lip-sync quality. To get the best of both, we seek a stochastic model with accurate lip-sync. To that end, we develop a new approach based on the following observation: if a method generates realistic 3D lip motions, it should be possible to infer the spoken audio from the lip motion. The inferred speech should match the original input audio, and erroneous predictions create a novel supervision signal for training 3D talking head avatars with accurate lip-sync. To demonstrate this effect, we propose THUNDER (Talking Heads Under Neural Differentiable Elocution Reconstruction), a 3D talking head avatar framework that introduces a novel supervision mechanism via differentiable sound production. First, we train a novel mesh-to-speech model that regresses audio from facial animation. Then, we incorporate this model into a diffusion-based talking avatar framework. During training, the mesh-to-speech model takes the generated animation and produces a sound that is compared to the input speech, creating a differentiable analysis-by-audio-synthesis supervision loop. Our extensive qualitative and quantitative experiments demonstrate that THUNDER significantly improves the quality of the lip-sync of talking head avatars while still allowing for generation of diverse, high-quality, expressive facial animations. The code and models will be available at https://thunder.is.tue.mpg.de/


翻译:为实现广泛应用,语音驱动的三维头部头像必须根据语音准确控制唇部动作,同时通过动态变化的面部表情传递恰当的情感。核心问题在于:确定性模型能生成高质量的唇形同步效果但缺乏丰富的表情表现,而随机性模型能生成多样化的表情但唇形同步质量较低。为兼得二者优势,我们寻求一种具备精确唇形同步能力的随机性模型。为此,我们基于以下观察提出新方法:若某方法能生成真实的三维唇部运动,则应能从唇部运动推断出对应语音。推断的语音应与原始输入音频匹配,而错误预测将为训练具有精确唇形同步的三维说话人头像提供新型监督信号。为验证此效应,我们提出THUNDER(基于神经可微分发音重建的说话人头像)——一种通过可微分声音生成机制引入新型监督的三维说话人头像框架。首先,我们训练创新的网格到语音模型,该模型可从面部动画回归音频。随后,我们将该模型集成至基于扩散的说话人头像框架。在训练过程中,网格到语音模型接收生成的面部动画并产生声音,该声音与输入语音进行比较,从而形成可微分的音频合成分析监督循环。我们大量的定性与定量实验表明,THUNDER在保持生成多样化、高质量、富有表现力的面部动画能力的同时,显著提升了说话人头像的唇形同步质量。代码与模型将在https://thunder.is.tue.mpg.de/公开。

0
下载
关闭预览

相关内容

用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
16+阅读 · 2021年5月13日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
16+阅读 · 2021年5月13日
相关资讯
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员