Agentic LLM systems equipped with persistent memory, RAG pipelines, and external tool connectors face a class of attacks - Logic-layer Prompt Control Injection (LPCI) - for which no automated red-teaming instrument existed. We present LAAF (Logic-layer Automated Attack Framework), the first automated red-teaming framework to combine an LPCI-specific technique taxonomy with stage-sequential seed escalation - two capabilities absent from existing tools: Garak lacks memory-persistence and cross-session triggering; PyRIT supports multi-turn testing but treats turns independently, without seeding each stage from the prior breakthrough. LAAF provides: (i) a 49-technique taxonomy spanning six attack categories (Encoding~11, Structural~8, Semantic~8, Layered~5, Trigger~12, Exfiltration~5; see Table 1), combinable across 5 variants per technique and 6 lifecycle stages, yielding a theoretical maximum of 2,822,400 unique payloads ($49 \times 5 \times 1{,}920 \times 6$; SHA-256 deduplicated at generation time); and (ii) a Persistent Stage Breaker (PSB) that drives payload mutation stage-by-stage: on each breakthrough, the PSB seeds the next stage with a mutated form of the winning payload, mirroring real adversarial escalation. Evaluation on five production LLM platforms across three independent runs demonstrates that LAAF achieves higher stage-breakthrough efficiency than single-technique random testing, with a mean aggregate breakthrough rate of 84\% (range 83--86\%) and platform-level rates stable within 17 percentage points across runs. Layered combinations and semantic reframing are the highest-effectiveness technique categories, with layered payloads outperforming encoding on well-defended platforms.


翻译:配备持久化记忆、RAG流水线与外部工具连接器的智能体大语言模型系统面临一类新型攻击——逻辑层提示控制注入(LPCI),而此前尚无针对此类漏洞的自动化红队测试工具。本文提出LAAF(逻辑层自动化攻击框架),这是首个将LPCI专用技术分类体系与阶段递进式种子升级相结合的自动化红队测试框架,其具备现有工具所缺失的两项核心能力:Garak缺乏持久化记忆与跨会话触发机制;PyRIT虽支持多轮测试但将各轮次独立处理,未能基于前序突破点生成后续阶段的测试种子。LAAF提供:(1)涵盖六类攻击维度(编码类~11、结构类~8、语义类~8、分层类~5、触发类~12、渗出类~5;详见表1)的49项技术分类体系,每项技术可结合5种变体与6个生命周期阶段,理论最多可生成2,822,400种独特载荷($49 \times 5 \times 1{,}920 \times 6$;生成阶段通过SHA-256去重);(2)持久化阶段突破器(PSB)实现载荷的逐阶段演化:每次突破后,PSB会将获胜载荷的变异形式作为下一阶段的测试种子,模拟真实攻击的升级过程。在五个生产级LLM平台上进行的三轮独立评估表明,相较于单技术随机测试,LAAF具有更高的阶段突破效率,平均综合突破率达84%(区间83-86%),各平台突破率在三次实验中的波动幅度稳定在17个百分点内。分层组合与语义重构是最高效的技术类别,在防御完善的平台上分层载荷的表现显著优于编码类攻击。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
17+阅读 · 2025年11月26日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
介绍WAF以及过滤机制
黑白之道
22+阅读 · 2019年2月5日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员