LLMs are increasingly equipped with safety alignment mechanisms, yet recent studies demonstrate that they remain vulnerable to jailbreaking attacks that elicit harmful behaviors without explicit policy violations. While a growing body of work has explored automated jailbreak strategies, existing methods face several fundamental challenges, including the lack of systematic utilization of both successful and failed attack experiences, as well as the absence of principled mechanisms for composing and selecting reusable attack rules under diverse constraints. As a result, existing methods struggle to accumulate transferable knowledge over time and to reliably adapt attack strategies across different targets and evolving safety mechanisms. To address these issues, we propose a Self-Evolving Rule-Driven Training-Free Jailbreak (SRTJ) framework that systematically discovers, composes, and refines attack strategies through interaction and feedback, without updating model parameters. Specifically, SRTJ couples experience-driven attack generation with answer set programming (ASP)-based rule selection and constraint-aware composition, where iterative verifier feedback is leveraged to jointly refine successful strategies and analyze failure patterns. The resulting rule memory evolves in a hierarchical multi-level manner, explicitly organizing distilled attack knowledge into long-term, middle-term, and short-term rules, thereby capturing both stable transferable strategies and transient adaptive behaviors to effectively balance exploration and exploitation across attack attempts. Extensive experiments on mainstream jailbreak benchmark (HarmBench) demonstrate that SRTJ achieves strong and stable attack performance across different target LLMs, while exhibiting improved robustness and generalization compared to existing jailbreak methods. The code is available at https://github.com/TheSolkatt/SRTJ.


翻译:大语言模型日益配备安全对齐机制,但近期研究表明它们仍易受越狱攻击,该攻击能在不违反明确政策的情况下诱发有害行为。尽管已有大量工作探索自动化越狱策略,现有方法仍面临根本性挑战:既缺乏对成功与失败攻击经验的系统性利用,也缺少在多样化约束条件下组合与选择可复用攻击规则的原则性机制。因此,现有方法难以随时间积累可迁移知识,也无法针对不同目标和演进的安全机制可靠调整攻击策略。针对这些问题,我们提出自进化规则驱动免训练越狱框架(SRTJ),该框架通过交互与反馈系统性发现、组合和优化攻击策略,且无需更新模型参数。具体而言,SRTJ将经验驱动的攻击生成与基于回答集编程(ASP)的规则选择及约束感知组合相结合,通过迭代验证器反馈共同优化成功策略并分析失败模式。由此产生的规则记忆以分层多级方式进化,将蒸馏后的攻击知识显式组织为长时、中时和短时规则,从而同时捕获稳定可迁移策略与瞬态自适应行为,有效平衡多次攻击尝试中的探索与利用。在主流越狱基准(HarmBench)上的大量实验表明,SRTJ在不同目标大语言模型上均能实现强劲且稳定的攻击性能,相较于现有越狱方法展现出更强的鲁棒性和泛化能力。代码发布于https://github.com/TheSolkatt/SRTJ。

0
下载
关闭预览

相关内容

通过学习、实践或探索所获得的认识、判断或技能。
《用于建模系统攻击路径的强化学习环境》
专知会员服务
22+阅读 · 3月5日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
针对自动驾驶智能模型的攻击与防御
专知会员服务
19+阅读 · 2024年6月25日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
专知会员服务
48+阅读 · 2021年5月17日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员