AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models - 专知论文

会员服务 ·

0

鲁棒 · 概念擦除 · 对抗 · 攻击 · 扩散模型 ·

AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models

翻译：AEGIS：基于对抗性目标引导的无保留数据鲁棒概念擦除扩散模型

Fengpeng Li,Kemou Li,Qizhou Wang,Bo Han,Jiantao Zhou

from arxiv, 30 pages,12 figures

Concept erasure helps stop diffusion models (DMs) from generating harmful content; but current methods face robustness retention trade off. Robustness means the model fine-tuned by concept erasure methods resists reactivation of erased concepts, even under semantically related prompts. Retention means unrelated concepts are preserved so the model's overall utility stays intact. Both are critical for concept erasure in practice, yet addressing them simultaneously is challenging, as existing works typically improve one factor while sacrificing the other. Prior work typically strengthens one while degrading the other, e.g., mapping a single erased prompt to a fixed safe target leaves class level remnants exploitable by prompt attacks, whereas retention-oriented schemes underperform against adaptive adversaries. This paper introduces Adversarial Erasure with Gradient Informed Synergy (AEGIS), a retention-data-free framework that advances both robustness and retention.

翻译：概念擦除有助于阻止扩散模型生成有害内容；然而，现有方法面临鲁棒性与保留性的权衡。鲁棒性指经概念擦除方法微调后的模型能够抵抗被擦除概念的重新激活，即使在语义相关提示下亦然。保留性指无关概念得以保持，从而维持模型的整体实用性。两者对于实际应用中的概念擦除均至关重要，但现有研究通常难以兼顾，往往在提升某一指标时牺牲另一指标。例如，将单一擦除提示映射至固定安全目标会遗留类别级残余，易受提示攻击利用；而以保留为导向的方案在面对自适应对抗攻击时表现欠佳。本文提出基于梯度信息协同的对抗性擦除框架AEGIS，该无需保留数据的框架可同步提升鲁棒性与保留性。

0

相关内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

专知会员服务

4+阅读 · 2025年5月19日

【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性

【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性

专知会员服务

21+阅读 · 2023年11月4日

【剑桥大学博士论文】模型鲁棒性的因果视角:健康和传感器数据案例研究，125页pdf

【剑桥大学博士论文】模型鲁棒性的因果视角:健康和传感器数据案例研究，125页pdf

专知会员服务

29+阅读 · 2023年2月10日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

IoUCert: Robustness Verification for Anchor-based Object Detectors

Arxiv

0+阅读 · 3月3日

Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting

Arxiv

0+阅读 · 2月26日

Adversarial Robustness on Insertion-Deletion Streams

Arxiv

0+阅读 · 2月24日

Vanishing Watermarks: Diffusion-Based Image Editing Undermines Robust Invisible Watermarking

Arxiv

0+阅读 · 2月24日

EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming

Arxiv

0+阅读 · 2月15日

AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models

Arxiv

0+阅读 · 2月13日

Safety Beyond the Training Data: Robust Out-of-Distribution MPC via Conformalized System Level Synthesis

Arxiv

0+阅读 · 2月12日

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

Arxiv

0+阅读 · 2月10日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Calibrating Decision Robustness via Inverse Conformal Risk Control

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

3+阅读 · 今天11:13

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

3+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

2+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

2+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

1+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

2+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

1+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

6+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

4+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

6+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

相关VIP内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】面向排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

14+阅读 · 2025年10月6日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

专知会员服务

4+阅读 · 2025年5月19日

【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性

【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性

专知会员服务

21+阅读 · 2023年11月4日

【剑桥大学博士论文】模型鲁棒性的因果视角:健康和传感器数据案例研究，125页pdf

【剑桥大学博士论文】模型鲁棒性的因果视角:健康和传感器数据案例研究，125页pdf

专知会员服务

29+阅读 · 2023年2月10日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

热门VIP内容

开通专知VIP会员享更多权益服务

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

伊朗战争停火期间美军关键弹药状况分析

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

IoUCert: Robustness Verification for Anchor-based Object Detectors

Arxiv

0+阅读 · 3月3日

Conformal Prediction with Corrupted Labels: Uncertain Imputation and Robust Re-weighting

Arxiv

0+阅读 · 2月26日

Adversarial Robustness on Insertion-Deletion Streams

Arxiv

0+阅读 · 2月24日

Vanishing Watermarks: Diffusion-Based Image Editing Undermines Robust Invisible Watermarking

Arxiv

0+阅读 · 2月24日

EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming

Arxiv

0+阅读 · 2月15日

AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models

Arxiv

0+阅读 · 2月13日

Safety Beyond the Training Data: Robust Out-of-Distribution MPC via Conformalized System Level Synthesis

Arxiv

0+阅读 · 2月12日

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

Arxiv

0+阅读 · 2月10日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

Calibrating Decision Robustness via Inverse Conformal Risk Control

Arxiv

0+阅读 · 1月29日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员