There is growing concern over the safety of powerful diffusion models (DMs), as they are often misused to produce inappropriate, not-safe-for-work (NSFW) content or generate copyrighted material or data of individuals who wish to be forgotten. Many existing methods tackle these issues by heavily relying on text-based negative prompts or extensively retraining DMs to eliminate certain features or samples. In this paper, we take a radically different approach, directly modifying the sampling trajectory by leveraging a negation set (e.g., unsafe images, copyrighted data, or datapoints needed to be excluded) to avoid specific regions of data distribution, without needing to retrain or fine-tune DMs. We formally derive the relationship between the expected denoised samples that are safe and those that are not safe, leading to our $\textit{safe}$ denoiser which ensures its final samples are away from the area to be negated. Inspired by the derivation, we develop a practical algorithm that successfully produces high-quality samples while avoiding negation areas of the data distribution in text-conditional, class-conditional, and unconditional image generation scenarios. These results hint at the great potential of our training-free safe denoiser for using DMs more safely.


翻译:随着强大扩散模型(DMs)的日益普及,其安全性问题引发广泛担忧,这些模型常被滥用于生成不当的、不适合工作场所(NSFW)的内容,或产生受版权保护的材料及个人希望被遗忘的数据。现有方法多通过严重依赖基于文本的负面提示词,或对扩散模型进行大量重新训练以消除特定特征或样本来应对这些问题。本文采取一种根本不同的路径,直接通过利用否定集(例如不安全图像、受版权保护数据或需排除的数据点)来修改采样轨迹,从而避免数据分布的特定区域,且无需对扩散模型进行重新训练或微调。我们形式化推导了预期安全去噪样本与非安全样本之间的关系,由此提出$\textit{安全}$去噪器,确保其最终生成的样本远离待否定的区域。受此推导启发,我们开发了一种实用算法,该算法在文本条件、类别条件及无条件图像生成场景中,成功生成高质量样本的同时有效避开了数据分布的否定区域。这些结果表明,我们无需训练的安全去噪器在更安全地使用扩散模型方面具有巨大潜力。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
预训练扩散模型蒸馏综述
专知会员服务
25+阅读 · 2025年2月17日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
生成扩散模型的攻击与防御:全面综述
专知会员服务
22+阅读 · 2024年8月11日
【CVPR2024】平衡之道:扩散模型中的分布指导去偏差
专知会员服务
22+阅读 · 2024年3月2日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 39分钟前
软件定义多域战术网络:基础与未来方向(综述)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
预训练扩散模型蒸馏综述
专知会员服务
25+阅读 · 2025年2月17日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
生成扩散模型的攻击与防御:全面综述
专知会员服务
22+阅读 · 2024年8月11日
【CVPR2024】平衡之道:扩散模型中的分布指导去偏差
专知会员服务
22+阅读 · 2024年3月2日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员