Diffusion-based purification (DBP) has become a cornerstone defense against adversarial examples (AEs), regarded as robust due to its use of diffusion models (DMs) that project AEs onto the natural data manifold. We refute this core claim, theoretically proving that gradient-based attacks effectively target the DM rather than the classifier, causing DBP's outputs to align with adversarial distributions. This prompts a reassessment of DBP's robustness, attributing it to two critical flaws: incorrect gradients and inappropriate evaluation protocols that test only a single random purification of the AE. We show that with proper accounting for stochasticity and resubmission risk, DBP collapses. To support this, we introduce DiffBreak, the first reliable toolkit for differentiation through DBP, eliminating gradient flaws that previously further inflated robustness estimates. We also analyze the current defense scheme used for DBP where classification relies on a single purification, pinpointing its inherent invalidity. We provide a statistically grounded majority-vote (MV) alternative that aggregates predictions across multiple purified copies, showing partial but meaningful robustness gain. We then propose a novel adaptation of an optimization method against deepfake watermarking, crafting systemic perturbations that defeat DBP even under MV, challenging DBP's viability.


翻译:基于扩散的净化(DBP)已成为对抗对抗样本(AEs)的核心防御手段,因其利用扩散模型(DMs)将AEs投影到自然数据流形上而被视为具有鲁棒性。我们反驳了这一核心主张,从理论上证明了基于梯度的攻击能有效针对DM而非分类器,导致DBP的输出与对抗性分布对齐。这促使我们重新评估DBP的鲁棒性,并将其归因于两个关键缺陷:错误的梯度以及仅测试AE单次随机净化的不当评估协议。我们表明,在恰当考虑随机性和重提交风险的情况下,DBP会失效。为支持这一结论,我们引入了DiffBreak,这是首个可靠的对DBP进行微分的工具包,消除了先前进一步夸大鲁棒性估计的梯度缺陷。我们还分析了当前用于DBP的防御方案——其分类依赖于单次净化,指出了其固有的无效性。我们提供了一种基于统计的多数投票(MV)替代方案,该方案聚合多个净化副本的预测,显示出部分但有意义的鲁棒性提升。随后,我们提出了一种针对深度伪造水印的优化方法的新颖改编,构建了即使在MV下也能击败DBP的系统性扰动,从而挑战了DBP的可行性。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
【博士论文】对抗鲁棒性深度学习算法
专知会员服务
16+阅读 · 2025年9月29日
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
生成扩散模型的攻击与防御:全面综述
专知会员服务
22+阅读 · 2024年8月11日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
【博士论文】对抗鲁棒性深度学习算法
专知会员服务
16+阅读 · 2025年9月29日
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
生成扩散模型的攻击与防御:全面综述
专知会员服务
22+阅读 · 2024年8月11日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员