Large Language Models (LLMs) have become integral to many domains, making their safety a critical priority. Prior jailbreaking research has explored diverse approaches, including prompt optimization, automated red teaming, obfuscation, and reinforcement learning (RL) based methods. However, most existing techniques fail to effectively leverage vulnerabilities revealed in earlier interaction turns, resulting in inefficient and unstable attacks. Since jailbreaking involves sequential interactions in which each response influences future actions, reinforcement learning provides a natural framework for this problem. Motivated by this, we propose a history-aware RL-based jailbreak framework that analyzes and reweights vulnerability signals from prior steps to guide future decisions. We show that incorporating historical information alone improves jailbreak success rates. Building on this insight, we introduce an attention-based reweighting mechanism that highlights critical vulnerabilities within the interaction history, enabling more efficient exploration with fewer queries. Extensive experiments on AdvBench and HarmBench demonstrate that our method achieves state-of-the-art jailbreak performance while significantly improving query efficiency. These results underscore the importance of historical vulnerability signals in reinforcement learning-driven jailbreak strategies and offer a principled pathway for advancing adversarial research on LLM safeguards.


翻译:大语言模型(LLM)已成为众多领域不可或缺的组成部分,其安全性因此成为关键优先事项。先前的越狱研究已探索了多种方法,包括提示优化、自动化红队测试、混淆技术以及基于强化学习(RL)的方法。然而,现有技术大多未能有效利用早期交互轮次中暴露的漏洞,导致攻击效率低下且不稳定。由于越狱涉及顺序交互过程,其中每个响应都会影响后续动作,强化学习为此问题提供了自然的框架。基于此动机,我们提出一种基于强化学习的历史感知越狱框架,该框架通过分析并重新加权历史步骤中的漏洞信号来指导后续决策。我们证明,仅通过引入历史信息即可提升越狱成功率。在此基础上,我们进一步提出一种基于注意力的重加权机制,该机制能够突出交互历史中的关键漏洞,从而以更少的查询实现更高效的探索。在AdvBench和HarmBench数据集上的大量实验表明,我们的方法在实现最先进越狱性能的同时,显著提升了查询效率。这些结果凸显了历史漏洞信号在强化学习驱动的越狱策略中的重要性,并为推进大语言模型防护机制的对抗性研究提供了系统化路径。

0
下载
关闭预览

相关内容

跨越黑盒:大语言模型的理论与机制
专知会员服务
37+阅读 · 1月7日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
21+阅读 · 2025年4月28日
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员