Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers - 专知论文

会员服务 ·

0

攻击 · 语音识别 · 提示注入 · 模型安全 · Claude ·

Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers

翻译：杀戮链金丝雀：跨攻击面与模型安全层级的提示注入阶段级追踪

Haochuan Kevin Wang

from arxiv, 10 pages, 8 figures. Benchmark code and run logs released

We present a stage-decomposed analysis of prompt injection attacks against five frontier LLM agents. Prior work measures task-level attack success rate (ASR); we localize the pipeline stage at which each model's defense activates. We instrument every run with a cryptographic canary token (SECRET-[A-F0-9]{8}) tracked through four kill-chain stages -- Exposed, Persisted, Relayed, Executed -- across four attack surfaces and five defense conditions (764 total runs, 428 no-defense attacked). Our central finding is that model safety is determined not by whether adversarial content is seen, but by whether it is propagated across pipeline stages. Concretely: (1) in our evaluation, exposure is 100% for all five models -- the safety gap is entirely downstream; (2) Claude strips injections at write_memory summarization (0/164 ASR), while GPT-4o-mini propagates canaries without loss (53% ASR, 95% CI: 41--65%); (3) DeepSeek exhibits 0% ASR on memory surfaces and 100% ASR on tool-stream surfaces from the same model -- a complete reversal across injection channels; (4) all four active defense conditions (write_filter, pi_detector, spotlighting, and their combination) produce 100% ASR due to threat-model surface mismatch; (5) a Claude relay node decontaminates downstream agents -- 0/40 canaries survived into shared memory.

翻译：我们提出一种分阶段分析方法，针对五个前沿大语言模型代理的提示注入攻击展开研究。现有工作仅衡量任务级攻击成功率（ASR）；我们精准定位每个模型防御机制激活的流水线阶段。每次运行均植入加密金丝雀令牌（SECRET-[A-F0-9]{8}），通过暴露、持久化、中继、执行四个杀戮链阶段进行追踪，覆盖四个攻击面与五种防御条件（共764次运行，其中428次为无防御攻击）。核心发现表明：模型安全性并非取决于对抗性内容是否被感知，而取决于其是否跨流水线阶段传播。具体而言：（1）本评估中五款模型的暴露率均为100%——安全差距完全存在于下游阶段；（2）Claude在写入记忆摘要阶段清除注入（ASR为0/164），而GPT-4o-mini无损失传播金丝雀（ASR为53%，95%置信区间：41-65%）；（3）DeepSeek在记忆面ASR为0%，但在同一模型的工具流面ASR达100%——呈现跨注入通道的完全逆转；（4）所有四种主动防御条件（写入过滤器、提示注入检测器、聚焦机制及其组合）因威胁模型面不匹配，ASR均为100%；（5）Claude中继节点可净化下游代理——共享记忆中无一金丝雀存活（0/40）。

0

相关内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《攻击场景描述形式化模型研究》

《攻击场景描述形式化模型研究》

专知会员服务

32+阅读 · 2025年8月15日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

《基于特定类别的视觉上下文优化进行分类攻击检测》美空军最新57页技术报告

《基于特定类别的视觉上下文优化进行分类攻击检测》美空军最新57页技术报告

专知会员服务

24+阅读 · 2023年6月28日

《调查和获取攻击者信息的策略 (SIENNA)》美国空军最新81页技术报告

《调查和获取攻击者信息的策略 (SIENNA)》美国空军最新81页技术报告

专知会员服务

32+阅读 · 2023年4月28日

《网络杀伤链、MITRE ATT&CK 和钻石模型：网络入侵分析模型的比较》2022年91页技术报告，伦敦大学皇家霍洛威学院

《网络杀伤链、MITRE ATT&CK 和钻石模型：网络入侵分析模型的比较》2022年91页技术报告，伦敦大学皇家霍洛威学院

专知会员服务

41+阅读 · 2023年1月17日

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

专知会员服务

17+阅读 · 2022年12月19日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

STARE: Step-wise Temporal Alignment and Red-teaming Engine for Multi-modal Toxicity Attack

Arxiv

0+阅读 · 5月1日

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

Arxiv

0+阅读 · 4月30日

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Arxiv

0+阅读 · 4月30日

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Arxiv

0+阅读 · 4月26日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《攻击场景描述形式化模型研究》

《攻击场景描述形式化模型研究》

专知会员服务

32+阅读 · 2025年8月15日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

《基于特定类别的视觉上下文优化进行分类攻击检测》美空军最新57页技术报告

《基于特定类别的视觉上下文优化进行分类攻击检测》美空军最新57页技术报告

专知会员服务

24+阅读 · 2023年6月28日

《调查和获取攻击者信息的策略 (SIENNA)》美国空军最新81页技术报告

《调查和获取攻击者信息的策略 (SIENNA)》美国空军最新81页技术报告

专知会员服务

32+阅读 · 2023年4月28日

《网络杀伤链、MITRE ATT&CK 和钻石模型：网络入侵分析模型的比较》2022年91页技术报告，伦敦大学皇家霍洛威学院

《网络杀伤链、MITRE ATT&CK 和钻石模型：网络入侵分析模型的比较》2022年91页技术报告，伦敦大学皇家霍洛威学院

专知会员服务

41+阅读 · 2023年1月17日

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

专知会员服务

17+阅读 · 2022年12月19日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

推荐！【F16模型：符号系统、模型提取、异常检测和形式化方法】《利用符号表示实现安全可靠学习》美空军2022最新107页技术报告

专知

11+阅读 · 2022年11月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

STARE: Step-wise Temporal Alignment and Red-teaming Engine for Multi-modal Toxicity Attack

Arxiv

0+阅读 · 5月1日

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

Arxiv

0+阅读 · 4月30日

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Arxiv

0+阅读 · 4月30日

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Arxiv

0+阅读 · 4月26日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Arxiv

0+阅读 · 4月16日

Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Arxiv

0+阅读 · 3月20日

相关基金

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员