DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer - 专知论文

会员服务 ·

0

视频 · 人脸 · 一致 · 高保真 · 合成 ·

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

翻译：DreamID-V：通过扩散Transformer弥合图像到视频鸿沟以实现高保真人脸交换

Xu Guo,Fulong Ye,Xinghui Li,Pengqi Tu,Pengze Zhang,Qichao Sun,Songtao Zhao,Xiangwang Hou,Qian He

from arxiv, Project: https://guoxu1233.github.io/DreamID-V/

Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.

翻译：视频人脸交换（VFS）要求将源身份无缝注入目标视频，同时细致保留原始姿态、表情、光照、背景及动态信息。现有方法难以在保持时序一致性的同时兼顾身份相似性与属性保留。为应对这一挑战，我们提出了一个综合性框架，将图像人脸交换（IFS）的优越性无缝迁移至视频领域。我们首先引入了新型数据流水线SyncID-Pipe，通过预训练身份锚定视频合成器并结合IFS模型构建双向ID四元组以进行显式监督。基于配对数据，我们提出了首个基于扩散Transformer的框架DreamID-V，采用核心的模态感知条件模块以判别式注入多模型条件。同时，我们提出了合成到真实的课程学习机制与身份一致性强化学习策略，以增强复杂场景下的视觉真实感与身份一致性。针对现有基准数据有限的问题，我们构建了涵盖多样化场景的综合基准测试集IDBench-V。大量实验表明DreamID-V优于现有最先进方法，并展现出卓越的泛化能力，可无缝适配多种交换相关任务。

0

相关内容

视频

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

视频人脸识别进展综述

视频人脸识别进展综述

专知会员服务

56+阅读 · 2021年3月12日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

【资源推荐】人脸技术相关资源汇总（识别、检测、标定、重建、生成等）

【资源推荐】人脸技术相关资源汇总（识别、检测、标定、重建、生成等）

专知

14+阅读 · 2019年4月17日

【Awesome人脸识别】想做人脸识别？看这些就够了

【Awesome人脸识别】想做人脸识别？看这些就够了

专知

31+阅读 · 2019年1月17日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Beauty and the Beast: Imperceptible Perturbations Against Diffusion-Based Face Swapping via Directional Attribute Editing

Arxiv

0+阅读 · 1月30日

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Arxiv

0+阅读 · 1月30日

APPLE: Attribute-Preserving Pseudo-Labeling for Diffusion-Based Face Swapping

Arxiv

0+阅读 · 1月21日

GAT-NeRF: Geometry-Aware-Transformer Enhanced Neural Radiance Fields for High-Fidelity 4D Facial Avatars

Arxiv

0+阅读 · 1月21日

Safeguarding Facial Identity against Diffusion-based Face Swapping via Cascading Pathway Disruption

Arxiv

0+阅读 · 1月21日

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

Arxiv

0+阅读 · 1月9日

GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting

Arxiv

0+阅读 · 1月9日

Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation

Arxiv

0+阅读 · 1月7日

FLUID: Training-Free Face De-identification via Latent Identity Substitution

Arxiv

0+阅读 · 1月6日

SwinIFS: Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

【MM 2021】基于Transformer的动态人脸表情识别网络,Former-DFER: Dynamic Facial Expression Recognition Transformer

专知会员服务

21+阅读 · 2022年3月22日

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

视频人脸识别进展综述

视频人脸识别进展综述

专知会员服务

56+阅读 · 2021年3月12日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

【资源推荐】人脸技术相关资源汇总（识别、检测、标定、重建、生成等）

【资源推荐】人脸技术相关资源汇总（识别、检测、标定、重建、生成等）

专知

14+阅读 · 2019年4月17日

【Awesome人脸识别】想做人脸识别？看这些就够了

【Awesome人脸识别】想做人脸识别？看这些就够了

专知

31+阅读 · 2019年1月17日

镜头间的风格转换行人重识别

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

相关论文

Beauty and the Beast: Imperceptible Perturbations Against Diffusion-Based Face Swapping via Directional Attribute Editing

Arxiv

0+阅读 · 1月30日

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Arxiv

0+阅读 · 1月30日

APPLE: Attribute-Preserving Pseudo-Labeling for Diffusion-Based Face Swapping

Arxiv

0+阅读 · 1月21日

GAT-NeRF: Geometry-Aware-Transformer Enhanced Neural Radiance Fields for High-Fidelity 4D Facial Avatars

Arxiv

0+阅读 · 1月21日

Safeguarding Facial Identity against Diffusion-based Face Swapping via Cascading Pathway Disruption

Arxiv

0+阅读 · 1月21日

ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers

Arxiv

0+阅读 · 1月9日

GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting

Arxiv

0+阅读 · 1月9日

Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation

Arxiv

0+阅读 · 1月7日

FLUID: Training-Free Face De-identification via Latent Identity Substitution

Arxiv

0+阅读 · 1月6日

SwinIFS: Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution

Arxiv

0+阅读 · 1月4日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员