Recent advances in GAN and diffusion models have significantly improved the realism and controllability of facial deepfake manipulation, raising serious concerns regarding privacy, security, and identity misuse. Proactive defenses attempt to counter this threat by injecting adversarial perturbations into images before manipulation takes place. However, existing approaches remain limited in effectiveness due to suboptimal perturbation injection strategies and are typically designed under white-box assumptions, targeting only simple GAN-based attribute editing. These constraints hinder their applicability in practical real-world scenarios. In this paper, we propose AEGIS, the first diffusion-guided paradigm in which the AdvErsarial facial images are Generated for Identity Shielding. We observe that the limited defense capability of existing approaches stems from the peak-clipping constraint, where perturbations are forcibly truncated due to a fixed $L_\infty$-bounded. To overcome this limitation, instead of directly modifying pixels, AEGIS injects adversarial perturbations into the latent space along the DDIM denoising trajectory, thereby decoupling the perturbation magnitude from pixel-level constraints and allowing perturbations to adaptively amplify where most effective. The extensible design of AEGIS allows the defense to be expanded from purely white-box use to also support black-box scenarios through a gradient-estimation strategy. Extensive experiments across GAN and diffusion-based deepfake generators show that AEGIS consistently delivers strong defense effectiveness while maintaining high perceptual quality. In white-box settings, it achieves robust manipulation disruption, whereas in black-box settings, it demonstrates strong cross-model transferability.


翻译:近年来,生成对抗网络与扩散模型的显著进展大幅提升了人脸深度伪造的逼真度与可控性,引发了对隐私、安全及身份滥用的严重担忧。主动防御方法试图通过在篡改发生前向图像中注入对抗扰动来应对这一威胁。然而,现有方法因扰动注入策略欠优化而效果有限,且通常基于白盒假设设计,仅能应对基于生成对抗网络的简单属性编辑,这些局限性阻碍了其在实际场景中的应用。本文提出AEGIS——首个以扩散模型引导的对抗人脸图像生成范式,旨在实现身份防护。我们观察到,现有方法防御能力受限源于峰值截断约束:扰动因固定的$L_\infty$界而被强制截断。为克服此限制,AEGIS不直接修改像素,而是沿DDIM去噪轨迹将对抗扰动注入潜空间,从而解耦扰动幅度与像素级约束,使扰动能在最有效区域自适应增强。AEGIS的可扩展设计通过梯度估计策略将防御范围从纯白盒场景扩展至支持黑盒场景。跨基于生成对抗网络与扩散模型的深度伪造生成器的广泛实验表明,AEGIS在保持高感知质量的同时持续展现强防御效能:在白盒场景中实现稳健的篡改破坏,在黑盒场景中则展现强跨模型迁移性。

0
下载
关闭预览

相关内容

《深度伪造防御系统评估的系统性方法》
专知会员服务
14+阅读 · 3月16日
【新书】利用生成式人工智能进行网络防御策略
专知会员服务
31+阅读 · 2024年10月18日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
49+阅读 · 2023年11月22日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
48+阅读 · 2022年6月27日
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
22+阅读 · 2022年1月19日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
48+阅读 · 2021年5月17日
专知会员服务
96+阅读 · 2021年1月17日
PFLD:简单高效的实用人脸关键点检测算法
PaperWeekly
20+阅读 · 2019年4月17日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
人脸识别技术全面总结:从传统方法到深度学习
算法与数学之美
12+阅读 · 2019年2月27日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
1+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
《深度伪造防御系统评估的系统性方法》
专知会员服务
14+阅读 · 3月16日
【新书】利用生成式人工智能进行网络防御策略
专知会员服务
31+阅读 · 2024年10月18日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
49+阅读 · 2023年11月22日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
48+阅读 · 2022年6月27日
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
22+阅读 · 2022年1月19日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
48+阅读 · 2021年5月17日
专知会员服务
96+阅读 · 2021年1月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员