Emotional Talking Face synthesis is pivotal in multimedia and signal processing, yet existing 3D methods suffer from two critical challenges: poor audio-vision emotion alignment, manifested as difficult audio emotion extraction and inadequate control over emotional micro-expressions; and a one-size-fits-all multi-view fusion strategy that overlooks uncertainty and feature quality differences, undermining rendering quality. We propose UA-3DTalk, Uncertainty-Aware 3D Emotional Talking Face Synthesis with emotion prior distillation, which has three core modules: the Prior Extraction module disentangles audio into content-synchronized features for alignment and person-specific complementary features for individualization; the Emotion Distillation module introduces a multi-modal attention-weighted fusion mechanism and 4D Gaussian encoding with multi-resolution code-books, enabling fine-grained audio emotion extraction and precise control of emotional micro-expressions; the Uncertainty-based Deformation deploys uncertainty blocks to estimate view-specific aleatoric (input noise) and epistemic (model parameters) uncertainty, realizing adaptive multi-view fusion and incorporating a multi-head decoder for Gaussian primitive optimization to mitigate the limitations of uniform-weight fusion. Extensive experiments on regular and emotional datasets show UA-3DTalk outperforms state-of-the-art methods like DEGSTalk and EDTalk by 5.2% in E-FID for emotion alignment, 3.1% in SyncC for lip synchronization, and 0.015 in LPIPS for rendering quality. Project page: https://mrask999.github.io/UA-3DTalk


翻译:情感说话人脸合成在多媒体与信号处理领域至关重要,然而现有的三维方法面临两大关键挑战:一是音视频情感对齐效果不佳,表现为音频情感提取困难以及对情感微表情的控制不足;二是采用“一刀切”的多视角融合策略,忽视了不确定性和特征质量差异,从而损害了渲染质量。我们提出了UA-3DTalk,一种基于不确定性感知和情感先验蒸馏的三维情感说话人脸合成方法,其包含三个核心模块:先验提取模块将音频解耦为用于对齐的内容同步特征和用于个性化的个体互补特征;情感蒸馏模块引入了多模态注意力加权融合机制以及结合多分辨率码本的四维高斯编码,实现了细粒度的音频情感提取和对情感微表情的精确控制;基于不确定性的形变模块部署了不确定性块来估计视角特定的偶然性(输入噪声)和认知性(模型参数)不确定性,实现了自适应的多视角融合,并采用多头解码器对高斯基元进行优化,以缓解均匀权重融合的局限性。在常规数据集和情感数据集上进行的大量实验表明,UA-3DTalk在情感对齐的E-FID指标上优于DEGSTalk和EDTalk等最先进方法5.2%,在唇形同步的SyncC指标上提升3.1%,在渲染质量的LPIPS指标上提升0.015。项目页面:https://mrask999.github.io/UA-3DTalk

0
下载
关闭预览

相关内容

多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
情感对话技术综述
专知会员服务
29+阅读 · 2024年4月3日
揭秘ChatGPT情感对话能力
专知会员服务
59+阅读 · 2023年4月9日
人脸合成技术综述
专知会员服务
25+阅读 · 2021年11月21日
专知会员服务
56+阅读 · 2021年3月5日
专知会员服务
29+阅读 · 2020年12月16日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
人脸关键点检测的数据集与核心方法发展综述
极市平台
12+阅读 · 2020年8月8日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
人脸关键点检测的数据集与核心方法发展综述
极市平台
12+阅读 · 2020年8月8日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员