Despite advances in safety alignment, large language models remain vulnerable to continuously evolving jailbreaks. Existing fine-tuned safety classifiers cannot adapt to these evolving attacks, while adaptive memory-based guardrails tend to over-refuse benign queries that resemble stored attacks. We propose Membrane, a self-evolving guardrail built on Contrastive Safety Memory (CSM): each cell pairs the conditions for blocking a harmful query with those for permitting a superficially similar benign request. Without retraining, Membrane evolves CSM by distilling each harmful interaction and its benign counterpart into a contrastive cell indexed by the underlying attack strategy, so that one cell generalizes across topical variants of the same mechanism. At inference, retrieved cells serve as grounding context for precise safety decisions. Across model-level safety on HarmBench and agent-level safety on AgentHarm, Membrane achieves the highest F1 on all six jailbreak attacks. Notably, benign refusal on AgentHarm stays at 7-14%, well below the 28-85% range of prior guards. Memory cells also retain 87-88% F1 under cross-attack transfer and remain stable under memory poisoning.


翻译:尽管在安全对齐方面取得了进展,大语言模型仍然容易受到持续演化的越狱攻击。现有的微调安全分类器无法适应这些不断演化的攻击,而基于自适应记忆的防护栏则倾向于过度拒绝与已存储攻击相似的良性查询。我们提出膜,一种构建于对比安全记忆体之上的自我演化防护栏:每个单元将阻止有害查询的条件与允许表面上相似的良性请求的条件配对。无需重新训练,膜通过将每次有害交互及其良性对应物蒸馏成一个由底层攻击策略索引的对比单元来演化CSM,使得单个单元能够泛化到同一机制的不同主题变体。在推理时,检索到的单元作为精准安全决策的上下文基础。在HarmBench上的模型级安全和AgentHarm上的智能体级安全测试中,膜在所有六种越狱攻击上取得了最高的F1分数。值得注意的是,在AgentHarm上良性拒绝率保持在7-14%,远低于先前防护栏28-85%的范围。在跨攻击迁移下,记忆单元仍保持87-88%的F1分数,并在记忆投毒下保持稳定。

0
下载
关闭预览

相关内容

AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员