Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control - 专知论文

会员服务 ·

0

控制器 · MoDELS · Prompt · TOOLS · Agent ·

Prompts Don't Protect: Architectural Enforcement via MCP Proxy for LLM Tool Access Control

翻译：提示词无法保护：通过MCP代理实现LLM工具访问控制的架构强制执行

from arxiv, 8 pages, 3 tables, 1 figure. Planning to submit to EMNLP 2026 Industry Track

Large language models increasingly operate as autonomous agents that select and invoke tools from large registries. We identify a critical gap: when unauthorized tools are visible in an agent's context, models select them in adversarial scenarios -- even when explicitly instructed otherwise. We propose a governed MCP proxy that enforces attribute-based access control (ABAC) at two points: tool discovery, where unauthorized tools are removed from the model's context window, and tool invocation, where a second check blocks any unauthorized call. Across three models (Qwen 2.5 7B, Llama 3.1 8B, Claude Haiku 3.5) and 150 adversarial tasks spanning four attack categories, our proxy reduces unauthorized invocation rate (UIR) to 0% while adding under 50ms median latency. Prompt-based restrictions reduce UIR by only 11--18 percentage points, leaving substantial residual risk. Our results show that architectural enforcement -- not prompting -- is necessary for reliable tool access control in deployed agentic systems.

翻译：大语言模型正越来越多地作为自主代理运行，从大型注册表中选择并调用工具。我们发现了一个关键漏洞：当非授权工具在代理的上下文中可见时，即使在明确禁止的情况下，模型在对抗性场景中仍会选择这些工具。我们提出一种受控的MCP代理，在以下两个节点强制执行基于属性的访问控制（ABAC）：工具发现阶段，将非授权工具从模型的上下文窗口中移除；工具调用阶段，通过二次检查拦截任何非授权调用。在三个模型（Qwen 2.5 7B、Llama 3.1 8B、Claude Haiku 3.5）及涵盖四类攻击的150项对抗性任务测试中，我们的代理将非授权调用率（UIR）降至0%，同时中位延迟增加不到50毫秒。基于提示词的限制仅将UIR降低11-18个百分点，仍存在显著残余风险。我们的结果表明，在部署的代理系统中，可靠的工具访问控制需要架构强制执行——而非提示词约束。

0

相关内容

控制器

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

NLP新宠 | 浅谈Prompt的前世今生

NLP新宠 | 浅谈Prompt的前世今生

机器学习与推荐算法

14+阅读 · 2021年8月16日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

异构密集无线网络的安全容量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

无线网络中轮询控制系统分析与改进的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents

Arxiv

0+阅读 · 6月16日

The Proxy Knows Too Much: Sealing LLM API Routers with Attested TEEs

Arxiv

0+阅读 · 6月15日

SecureClaw: Clawing Back Control of LLM Agents

Arxiv

0+阅读 · 6月8日

Resilient Write: A Six-Layer Durable Write Surface for LLM Coding Agents

Arxiv

0+阅读 · 6月7日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

Organizational Control Layer: Governance Infrastructure at the Execution Boundary of LLM Agent Systems

Arxiv

0+阅读 · 6月3日

DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers

Arxiv

0+阅读 · 5月27日

VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers

Arxiv

0+阅读 · 5月20日

From Component Manipulation to System Compromise: Understanding and Detecting Malicious MCP Servers

Arxiv

0+阅读 · 5月19日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

MMClaw 接入飞书实战：权限、长连接等设置（也适用于OpenClaw）

专知会员服务

15+阅读 · 2月14日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

NLP新宠 | 浅谈Prompt的前世今生

NLP新宠 | 浅谈Prompt的前世今生

机器学习与推荐算法

14+阅读 · 2021年8月16日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

相关论文

ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents

Arxiv

0+阅读 · 6月16日

The Proxy Knows Too Much: Sealing LLM API Routers with Attested TEEs

Arxiv

0+阅读 · 6月15日

SecureClaw: Clawing Back Control of LLM Agents

Arxiv

0+阅读 · 6月8日

Resilient Write: A Six-Layer Durable Write Surface for LLM Coding Agents

Arxiv

0+阅读 · 6月7日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

Organizational Control Layer: Governance Infrastructure at the Execution Boundary of LLM Agent Systems

Arxiv

0+阅读 · 6月3日

DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers

Arxiv

0+阅读 · 5月27日

VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers

Arxiv

0+阅读 · 5月20日

From Component Manipulation to System Compromise: Understanding and Detecting Malicious MCP Servers

Arxiv

0+阅读 · 5月19日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 5月11日

相关基金

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

异构密集无线网络的安全容量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

无线网络中轮询控制系统分析与改进的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员