Speech-Preserving Facial Expression Manipulation (SPFEM) is an innovative technique aimed at altering facial expressions in images and videos while retaining the original mouth movements. Despite advancements, SPFEM still struggles with accurate lip synchronization due to the complex interplay between facial expressions and mouth shapes. Capitalizing on the advanced capabilities of audio-driven talking head generation (AD-THG) models in synthesizing precise lip movements, our research introduces a novel integration of these models with SPFEM. We present a new framework, Talking Head Facial Expression Manipulation (THFEM), which utilizes AD-THG models to generate frames with accurately synchronized lip movements from audio inputs and SPFEM-altered images. However, increasing the number of frames generated by AD-THG models tends to compromise the realism and expression fidelity of the images. To counter this, we develop an adjacent frame learning strategy that finetunes AD-THG models to predict sequences of consecutive frames. This strategy enables the models to incorporate information from neighboring frames, significantly improving image quality during testing. Our extensive experimental evaluations demonstrate that this framework effectively preserves mouth shapes during expression manipulations, highlighting the substantial benefits of integrating AD-THG with SPFEM.


翻译:语音保持面部表情操纵(SPFEM)是一种创新技术,旨在改变图像和视频中的面部表情,同时保留原始嘴部运动。尽管技术不断进步,但由于面部表情与嘴部形状之间复杂的相互作用,SPFEM在准确的唇部同步方面仍面临挑战。本研究利用音频驱动说话头部生成(AD-THG)模型在合成精确唇部运动方面的先进能力,首次提出将这些模型与SPFEM进行创新性整合。我们提出了一个新框架——说话头部面部表情操纵(THFEM),该框架利用AD-THG模型从音频输入和经SPFEM修改的图像中生成具有精确同步唇部运动的帧。然而,增加AD-THG模型生成的帧数往往会损害图像的真实感和表情保真度。为解决这一问题,我们开发了一种相邻帧学习策略,通过微调AD-THG模型来预测连续帧序列。该策略使模型能够整合相邻帧的信息,从而在测试阶段显著提升图像质量。我们的大量实验评估表明,该框架在表情操纵过程中能有效保持嘴部形状,凸显了将AD-THG与SPFEM整合所带来的显著优势。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《静态与动态情感的面部表情识别综述》
专知会员服务
20+阅读 · 2024年8月31日
《深度多模态学习的身体语言识别与生成》综述
专知会员服务
27+阅读 · 2023年8月27日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员