The success of diffusion models has raised concerns about the generation of unsafe or harmful content, prompting concept erasure approaches that fine-tune modules to suppress specific concepts while preserving general generative capabilities. However, as the number of erased concepts grows, these methods often become inefficient and ineffective, since each concept requires a separate set of fine-tuned parameters and may degrade the overall generation quality. In this work, we propose a supertype-subtype concept hierarchy that organizes erased concepts into a parent-child structure. Each erased concept is treated as a child node, and semantically related concepts (e.g., macaw, and bald eagle) are grouped under a shared parent node, referred to as a supertype concept (e.g., bird). Rather than erasing concepts individually, we introduce an effective and efficient group-wise suppression method, where semantically similar concepts are grouped and erased jointly by sharing a single set of learnable parameters. During the erasure phase, standard diffusion regularization is applied to preserve denoising process in unmasked regions. To mitigate the degradation of supertype generation caused by excessive erasure of semantically related subtypes, we propose a novel method called Supertype-Preserving Low-Rank Adaptation (SuPLoRA), which encodes the supertype concept information in the frozen down-projection matrix and updates only the up-projection matrix during erasure. Theoretical analysis demonstrates the effectiveness of SuPLoRA in mitigating generation performance degradation. We construct a more challenging benchmark that requires simultaneous erasure of concepts across diverse domains, including celebrities, objects, and pornographic content.


翻译:扩散模型的成功引发了对其生成不安全或有害内容的担忧,这促使了概念擦除方法的发展,该方法通过微调模型模块来抑制特定概念,同时保留通用生成能力。然而,随着待擦除概念数量的增加,这些方法往往变得低效且效果不佳,因为每个概念都需要一组独立的微调参数,并且可能损害整体生成质量。在本工作中,我们提出了一种超类型-子类型概念层次结构,将待擦除概念组织成父子关系。每个待擦除概念被视为子节点,语义相关的概念(例如,金刚鹦鹉和秃鹰)被分组到一个共享的父节点下,该父节点被称为超类型概念(例如,鸟类)。我们不是单独擦除每个概念,而是引入了一种有效且高效的组级抑制方法,其中语义相似的概念被分组,并通过共享一组可学习参数进行联合擦除。在擦除阶段,应用标准的扩散正则化以保留未掩码区域中的去噪过程。为了减轻因过度擦除语义相关的子类型而导致的超类型生成质量下降,我们提出了一种称为超类型保持低秩适应(SuPLoRA)的新方法,该方法将超类型概念信息编码在冻结的下投影矩阵中,并在擦除过程中仅更新上投影矩阵。理论分析证明了SuPLoRA在减轻生成性能下降方面的有效性。我们构建了一个更具挑战性的基准测试,要求同时擦除跨多个领域(包括名人、物体和色情内容)的概念。

0
下载
关闭预览

相关内容

【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
专知会员服务
47+阅读 · 2020年10月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员