Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks - 专知论文

会员服务 ·

0

攻击 · 控制协议 · 提示注入 · 监督 · 提示注入攻击 ·

Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks

翻译：通过代理即代理攻击绕过人工智能控制协议

Jafar Isbarov,Murat Kantarcioglu

As AI agents automate critical workloads, they remain vulnerable to indirect prompt injection (IPI) attacks. Current defenses rely on monitoring protocols that jointly evaluate an agent's Chain-of-Thought (CoT) and tool-use actions to ensure alignment with user intent. We demonstrate that these monitoring-based defenses can be bypassed via a novel Agent-as-a-Proxy attack, where prompt injection attacks treat the agent as a delivery mechanism, bypassing both agent and monitor simultaneously. While prior work on scalable oversight has focused on whether small monitors can supervise large agents, we show that even frontier-scale monitors are vulnerable. Large-scale monitoring models like Qwen2.5-72B can be bypassed by agents with similar capabilities, such as GPT-4o mini and Llama-3.1-70B. On the AgentDojo benchmark, we achieve a high attack success rate against AlignmentCheck and Extract-and-Evaluate monitors under diverse monitoring LLMs. Our findings suggest current monitoring-based agentic defenses are fundamentally fragile regardless of model scale.

翻译：随着AI代理自动化关键工作负载，它们仍然容易受到间接提示注入攻击。当前防御依赖于监控协议，这些协议联合评估代理的思维链和工具使用行为，以确保与用户意图保持一致。我们证明，这些基于监控的防御可以通过一种新颖的代理即代理攻击被绕过，其中提示注入攻击将代理视为传递机制，同时绕过代理和监控器。虽然先前关于可扩展监督的研究关注小型监控器能否监督大型代理，但我们表明即使是前沿规模的监控器也存在漏洞。像Qwen2.5-72B这样的大规模监控模型可能被具有相似能力的代理（如GPT-4o mini和Llama-3.1-70B）绕过。在AgentDojo基准测试中，我们在多种监控大语言模型下对AlignmentCheck和Extract-and-Evaluate监控器实现了高攻击成功率。我们的研究结果表明，无论模型规模如何，当前基于监控的代理防御本质上都是脆弱的。

0

相关内容

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

11+阅读 · 4月21日

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

21+阅读 · 2025年12月11日

《代理式人工智能：美国国防部的战略采纳》最新21页报告

《代理式人工智能：美国国防部的战略采纳》最新21页报告

专知会员服务

30+阅读 · 2025年11月10日

战略安全时间滞后：人工通用智能（AGI）驱动的CPA（成本-概率不对称性）逆转在美国反导中的应用（2027–2032） | 最新文献

战略安全时间滞后：人工通用智能（AGI）驱动的CPA（成本-概率不对称性）逆转在美国反导中的应用（2027–2032） | 最新文献

专知会员服务

24+阅读 · 2025年10月22日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

20+阅读 · 2025年3月20日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

30+阅读 · 2023年11月21日

人工智能赋能网络攻击的安全威胁及应对策略

专知会员服务

46+阅读 · 2021年6月25日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

Arxiv

0+阅读 · 3月11日

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

Arxiv

0+阅读 · 3月2日

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Arxiv

0+阅读 · 2月24日

Optimizing Agent Planning for Security and Autonomy

Arxiv

0+阅读 · 2月11日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月6日

Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks

Arxiv

0+阅读 · 2月4日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月3日

To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

提示注入攻击

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

15+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

9+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

7+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

9+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

相关VIP内容

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

11+阅读 · 4月21日

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

21+阅读 · 2025年12月11日

《代理式人工智能：美国国防部的战略采纳》最新21页报告

《代理式人工智能：美国国防部的战略采纳》最新21页报告

专知会员服务

30+阅读 · 2025年11月10日

战略安全时间滞后：人工通用智能（AGI）驱动的CPA（成本-概率不对称性）逆转在美国反导中的应用（2027–2032） | 最新文献

战略安全时间滞后：人工通用智能（AGI）驱动的CPA（成本-概率不对称性）逆转在美国反导中的应用（2027–2032） | 最新文献

专知会员服务

24+阅读 · 2025年10月22日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

20+阅读 · 2025年3月20日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

30+阅读 · 2023年11月21日

人工智能赋能网络攻击的安全威胁及应对策略

专知会员服务

46+阅读 · 2021年6月25日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

腾讯：机器学习构建通用的数据异常检测平台

腾讯：机器学习构建通用的数据异常检测平台

全球人工智能

11+阅读 · 2018年5月1日

相关论文

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

Arxiv

0+阅读 · 3月11日

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

Arxiv

0+阅读 · 3月2日

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Arxiv

0+阅读 · 2月24日

Optimizing Agent Planning for Security and Autonomy

Arxiv

0+阅读 · 2月11日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月6日

Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks

Arxiv

0+阅读 · 2月4日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月3日

To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack

Arxiv

0+阅读 · 2月1日

相关基金

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员