Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache - 专知论文

会员服务 ·

0

越狱 · 攻击 · 内存 · 越狱攻击 · 设计 ·

Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache

翻译：加速后缀越狱攻击的前缀共享键值缓存技术

Xinhai Wang,Shaopeng Fu,Shu Yang,Liangyu Wang,Tianhang Zheng,Di Wang

from arxiv, 27 pages, 7 figures, preprint

Suffix jailbreak attacks serve as a systematic method for red-teaming Large Language Models (LLMs) but suffer from prohibitive computational costs, as a large number of candidate suffixes need to be evaluated before identifying a jailbreak suffix. This paper presents Prefix-Shared KV Cache (PSKV), a plug-and-play inference optimization technique tailored for jailbreak suffix generation. Our method is motivated by a key observation that when performing suffix jailbreaking, while a large number of candidate prompts need to be evaluated, they share the same targeted harmful instruction as the prefix. Therefore, instead of performing redundant inference on the duplicated prefix, PSKV maintains a single KV cache for this prefix and shares it with every candidate prompt, enabling the parallel inference of diverse suffixes with minimal memory overhead. This design enables more aggressive batching strategies that would otherwise be limited by memory constraints. Extensive experiments on six widely used suffix attacks across five widely deployed LLMs demonstrate that PSKV reduces inference time by 40\% and peak memory usage by 50\%, while maintaining the original Attack Success Rate (ASR). The code has been submitted and will be released publicly.

翻译：后缀越狱攻击是对大型语言模型（LLMs）进行红队测试的一种系统方法，但评估大量候选后缀以确定越狱后缀的过程计算成本高昂。本文提出前缀共享键值缓存（PSKV），一种专为越狱后缀生成设计的即插即用推理优化技术。该方法源于一个关键观察：在进行后缀越狱时，虽然需要评估大量候选提示，但它们共享相同的有害目标指令作为前缀。因此，PSKV不再对重复的前缀进行冗余推理，而是为该前缀维护单一键值缓存并与每个候选提示共享，从而以最小内存开销实现不同后缀的并行推理。该设计支持更激进的批处理策略，而此类策略原本会受到内存限制。在五种广泛部署的大语言模型上针对六种常用后缀攻击的大量实验表明，PSKV在保持原始攻击成功率（ASR）的前提下，将推理时间减少40%、峰值内存使用减少50%。代码已提交并即将公开发布。

0

相关内容

面向高效大语言模型服务的系统感知 KV Cache 优化综述

面向高效大语言模型服务的系统感知 KV Cache 优化综述

专知会员服务

11+阅读 · 7月12日

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

20+阅读 · 2025年9月13日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

专知会员服务

13+阅读 · 2025年5月13日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

Web渗透测试Fuzz字典分享

Web渗透测试Fuzz字典分享

黑白之道

21+阅读 · 2019年5月22日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor

Arxiv

0+阅读 · 6月16日

Automated jailbreak attack targeting multiple defense strategies

Arxiv

0+阅读 · 6月15日

JailbreakOPT: Tool-Assisted Iterative Jailbreak Prompt Optimization

Arxiv

0+阅读 · 6月9日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection

Arxiv

0+阅读 · 6月4日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models

Arxiv

0+阅读 · 5月19日

EVA: Editing for Versatile Alignment against Jailbreaks

Arxiv

0+阅读 · 5月14日

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Arxiv

0+阅读 · 5月11日

RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

面向高效大语言模型服务的系统感知 KV Cache 优化综述

面向高效大语言模型服务的系统感知 KV Cache 优化综述

专知会员服务

11+阅读 · 7月12日

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

20+阅读 · 2025年9月13日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

专知会员服务

13+阅读 · 2025年5月13日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

Web渗透测试Fuzz字典分享

Web渗透测试Fuzz字典分享

黑白之道

21+阅读 · 2019年5月22日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor

Arxiv

0+阅读 · 6月16日

Automated jailbreak attack targeting multiple defense strategies

Arxiv

0+阅读 · 6月15日

JailbreakOPT: Tool-Assisted Iterative Jailbreak Prompt Optimization

Arxiv

0+阅读 · 6月9日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

GuardNet: Ensemble Strategies of Shallow Neural Networks for Robust Prompt Injection and Jailbreak Detection

Arxiv

0+阅读 · 6月4日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models

Arxiv

0+阅读 · 5月19日

EVA: Editing for Versatile Alignment against Jailbreaks

Arxiv

0+阅读 · 5月14日

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Arxiv

0+阅读 · 5月11日

RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching

Arxiv

0+阅读 · 5月8日

相关基金

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员