Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation - 专知论文

会员服务 ·

0

视频 · 相互作用 · 合成 · 精确同步 · 模型生成 ·

Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation

翻译：基于相邻帧先验的说话头部模型在语音保持面部表情操纵中的探索

Zhenxuan Lu,Zhihua Xu,Zhijing Yang,Feng Gao,Yongyi Lu,Keze Wang,Tianshui Chen

from arxiv, Accepted by ACM Transactions on Multimedia Computing, Communications, and Applications

Speech-Preserving Facial Expression Manipulation (SPFEM) is an innovative technique aimed at altering facial expressions in images and videos while retaining the original mouth movements. Despite advancements, SPFEM still struggles with accurate lip synchronization due to the complex interplay between facial expressions and mouth shapes. Capitalizing on the advanced capabilities of audio-driven talking head generation (AD-THG) models in synthesizing precise lip movements, our research introduces a novel integration of these models with SPFEM. We present a new framework, Talking Head Facial Expression Manipulation (THFEM), which utilizes AD-THG models to generate frames with accurately synchronized lip movements from audio inputs and SPFEM-altered images. However, increasing the number of frames generated by AD-THG models tends to compromise the realism and expression fidelity of the images. To counter this, we develop an adjacent frame learning strategy that finetunes AD-THG models to predict sequences of consecutive frames. This strategy enables the models to incorporate information from neighboring frames, significantly improving image quality during testing. Our extensive experimental evaluations demonstrate that this framework effectively preserves mouth shapes during expression manipulations, highlighting the substantial benefits of integrating AD-THG with SPFEM.

翻译：语音保持面部表情操纵（SPFEM）是一种创新技术，旨在改变图像和视频中的面部表情，同时保留原始嘴部运动。尽管技术不断进步，但由于面部表情与嘴部形状之间复杂的相互作用，SPFEM在准确的唇部同步方面仍面临挑战。本研究利用音频驱动说话头部生成（AD-THG）模型在合成精确唇部运动方面的先进能力，首次提出将这些模型与SPFEM进行创新性整合。我们提出了一个新框架——说话头部面部表情操纵（THFEM），该框架利用AD-THG模型从音频输入和经SPFEM修改的图像中生成具有精确同步唇部运动的帧。然而，增加AD-THG模型生成的帧数往往会损害图像的真实感和表情保真度。为解决这一问题，我们开发了一种相邻帧学习策略，通过微调AD-THG模型来预测连续帧序列。该策略使模型能够整合相邻帧的信息，从而在测试阶段显著提升图像质量。我们的大量实验评估表明，该框架在表情操纵过程中能有效保持嘴部形状，凸显了将AD-THG与SPFEM整合所带来的显著优势。

0

相关内容

视频

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

《静态与动态情感的面部表情识别综述》

《静态与动态情感的面部表情识别综述》

专知会员服务

20+阅读 · 2024年8月31日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

Arxiv

0+阅读 · 2月11日

Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework

Arxiv

0+阅读 · 2月10日

Toward Fine-Grained Facial Control in 3D Talking Head Generation

Arxiv

0+阅读 · 2月10日

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Arxiv

0+阅读 · 2月10日

LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild

Arxiv

0+阅读 · 1月30日

Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis

Arxiv

0+阅读 · 1月27日

Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting

Arxiv

0+阅读 · 1月26日

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

Arxiv

0+阅读 · 1月20日

EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing

Arxiv

0+阅读 · 1月15日

Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

1+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

1+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

《静态与动态情感的面部表情识别综述》

《静态与动态情感的面部表情识别综述》

专知会员服务

20+阅读 · 2024年8月31日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

【CVPR2023】高保真自由可控的说话头视频生成

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

21+阅读 · 2023年4月22日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

旷视研究院新出8000点人脸关键点，堪比电影级表情捕捉

人工智能前沿讲习班

19+阅读 · 2019年5月4日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

深度人脸表情识别技术综述，没有比这更全的了

深度人脸表情识别技术综述，没有比这更全的了

AI前线

23+阅读 · 2018年5月6日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

相关论文

3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

Arxiv

0+阅读 · 2月11日

Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework

Arxiv

0+阅读 · 2月10日

Toward Fine-Grained Facial Control in 3D Talking Head Generation

Arxiv

0+阅读 · 2月10日

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Arxiv

0+阅读 · 2月10日

LPIPS-AttnWav2Lip: Generic Audio-Driven lip synchronization for Talking Head Generation in the Wild

Arxiv

0+阅读 · 1月30日

Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis

Arxiv

0+阅读 · 1月27日

Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting

Arxiv

0+阅读 · 1月26日

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

Arxiv

0+阅读 · 1月20日

EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing

Arxiv

0+阅读 · 1月15日

Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Arxiv

0+阅读 · 1月14日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员