The choice of speech representation is critical in speech-driven 3D facial animation. Representations differ in what they encode: SSL features emphasize segmental and semantic cues, neural codecs yield latents optimized for acoustic reconstruction, and ASR-style objectives produce label-based spaces. We evaluate four speech representation families for 3D facial synthesis, comparing their facial reconstruction quality across two facial decoders using objective metrics and a perceptual evaluation. We additionally conduct probing analyses that relate tokenized representations to phonetic units and to articulatory deformations. We found that encoding phonetic classes is beneficial for accurate facial animation prediction on both semantic and label-based representations with comparable facial animation quality. From the latter, we introduce an Audio Visual Text-to-Speech (AVTTS) pipeline that leverages, as a shared space, discrete representations to decode speech and 3D facial motion.


翻译:语音表征的选择对语音驱动的3D面部动画至关重要。不同表征在编码内容上存在差异:自监督学习特征强调音段和语义线索,神经编解码器生成针对声学重建优化的潜在表征,而自动语音识别目标则产生基于标签的空间。我们评估了四种面向3D面部合成的语音表征族,通过客观指标和感知评估比较它们在两种面部解码器中的面部重建质量。此外,我们进行了探测分析,将词元化表征与语音单元及发音形变关联起来。研究发现,编码语音类别有利于在语义与标签两类表征上预测准确的面部动画,且两者面部动画质量相当。基于后者,我们提出了一种音视频文语转换流水线,该流水线利用离散表征作为共享空间,同步解码语音与3D面部运动。

0
下载
关闭预览

相关内容

《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
「深度学习表情动作单元识别」 最新2022研究综述
专知会员服务
25+阅读 · 2022年10月8日
专知会员服务
12+阅读 · 2021年10月14日
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
44+阅读 · 2021年4月18日
专知会员服务
56+阅读 · 2021年3月5日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 7分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员