MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP - 专知论文

会员服务 ·

0

工具 · 攻击 · 自动化 · 智能体 · 嵌入 ·

MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP

翻译：MCP-ITP：一种用于MCP中隐式工具投毒的自动化框架

Ruiqi Li,Zhiqiang Wang,Yunhao Yao,Xiang-Yang Li

To standardize interactions between LLM-based agents and their environments, the Model Context Protocol (MCP) was proposed and has since been widely adopted. However, integrating external tools expands the attack surface, exposing agents to tool poisoning attacks. In such attacks, malicious instructions embedded in tool metadata are injected into the agent context during MCP registration phase, thereby manipulating agent behavior. Prior work primarily focuses on explicit tool poisoning or relied on manually crafted poisoned tools. In contrast, we focus on a particularly stealthy variant: implicit tool poisoning, where the poisoned tool itself remains uninvoked. Instead, the instructions embedded in the tool metadata induce the agent to invoke a legitimate but high-privilege tool to perform malicious operations. We propose MCP-ITP, the first automated and adaptive framework for implicit tool poisoning within the MCP ecosystem. MCP-ITP formulates poisoned tool generation as a black-box optimization problem and employs an iterative optimization strategy that leverages feedback from both an evaluation LLM and a detection LLM to maximize Attack Success Rate (ASR) while evading current detection mechanisms. Experimental results on the MCPTox dataset across 12 LLM agents demonstrate that MCP-ITP consistently outperforms the manually crafted baseline, achieving up to 84.2% ASR while suppressing the Malicious Tool Detection Rate (MDR) to as low as 0.3%.

翻译：为标准化基于LLM的智能体与其环境间的交互，模型上下文协议（MCP）被提出并已得到广泛采用。然而，集成外部工具扩展了攻击面，使智能体面临工具投毒攻击。在此类攻击中，嵌入工具元数据中的恶意指令会在MCP注册阶段被注入智能体上下文，从而操纵智能体行为。先前工作主要关注显式工具投毒或依赖人工构造的投毒工具。相比之下，我们关注一种特别隐蔽的变体：隐式工具投毒，其中被投毒的工具本身未被调用，而是嵌入工具元数据中的指令诱导智能体调用一个合法但高权限的工具来执行恶意操作。我们提出了MCP-ITP，这是首个针对MCP生态系统内隐式工具投毒的自动化自适应框架。MCP-ITP将投毒工具生成建模为一个黑盒优化问题，并采用一种迭代优化策略，该策略利用评估LLM和检测LLM的反馈，以在规避现有检测机制的同时最大化攻击成功率（ASR）。在MCPTox数据集上对12个LLM智能体进行的实验结果表明，MCP-ITP持续优于人工构造的基线方法，最高可实现84.2%的ASR，同时将恶意工具检测率（MDR）抑制至低至0.3%。

0

相关内容

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

44+阅读 · 2025年6月9日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

48+阅读 · 2023年9月20日

重磅！国家标准《人工智能计算平台安全框架》征求意见稿发布，38页pdf详细规定AI计算安全框架

重磅！国家标准《人工智能计算平台安全框架》征求意见稿发布，38页pdf详细规定AI计算安全框架

专知会员服务

75+阅读 · 2023年6月12日

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

149+阅读 · 2019年4月7日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

多功能超病毒递送系统的构建及其作用机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

植物病毒的微流控芯片ELISA智能便携平台测定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

Arxiv

0+阅读 · 1月31日

Secure Tool Manifest and Digital Signing Solution for Verifiable MCP and LLM Pipelines

Arxiv

0+阅读 · 1月30日

MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics

Arxiv

0+阅读 · 1月30日

Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration

Arxiv

0+阅读 · 1月22日

MindGuard: Intrinsic Decision Inspection for Securing LLM Agents Against Metadata Poisoning

Arxiv

0+阅读 · 1月15日

MindGuard: Intrinsic Decision Inspection for Securing LLM Agents Against Metadata Poisoning

Arxiv

0+阅读 · 1月14日

MCP-Guard: A Multi-Stage Defense-in-Depth Framework for Securing Model Context Protocol in Agentic AI

Arxiv

0+阅读 · 1月8日

MCP-Guard: A Multi-Stage Defense-in-Depth Framework for Securing Model Context Protocol in Agentic AI

Arxiv

0+阅读 · 1月5日

MCP-SandboxScan: WASM-based Secure Execution and Runtime Analysis for MCP Tools

Arxiv

0+阅读 · 1月3日

MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

0+阅读 · 35分钟前

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

0+阅读 · 39分钟前

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 48分钟前

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

3+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

5+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

7+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

9+阅读 · 4月21日

相关VIP内容

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

44+阅读 · 2025年6月9日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

48+阅读 · 2023年9月20日

重磅！国家标准《人工智能计算平台安全框架》征求意见稿发布，38页pdf详细规定AI计算安全框架

重磅！国家标准《人工智能计算平台安全框架》征求意见稿发布，38页pdf详细规定AI计算安全框架

专知会员服务

75+阅读 · 2023年6月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国战争部2027财年军事人员预算》

大语言模型平台在国防情报应用中的对比

《将量子技术集成到移动军事系统与战术作战中心框架》

伊朗战争中的电子战

相关资讯

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

TheFatRat 一款简易后门工具

TheFatRat 一款简易后门工具

黑白之道

36+阅读 · 2019年10月23日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

149+阅读 · 2019年4月7日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

Arxiv

0+阅读 · 1月31日

Secure Tool Manifest and Digital Signing Solution for Verifiable MCP and LLM Pipelines

Arxiv

0+阅读 · 1月30日

MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics

Arxiv

0+阅读 · 1月30日

Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration

Arxiv

0+阅读 · 1月22日

MindGuard: Intrinsic Decision Inspection for Securing LLM Agents Against Metadata Poisoning

Arxiv

0+阅读 · 1月15日

MindGuard: Intrinsic Decision Inspection for Securing LLM Agents Against Metadata Poisoning

Arxiv

0+阅读 · 1月14日

MCP-Guard: A Multi-Stage Defense-in-Depth Framework for Securing Model Context Protocol in Agentic AI

Arxiv

0+阅读 · 1月8日

MCP-Guard: A Multi-Stage Defense-in-Depth Framework for Securing Model Context Protocol in Agentic AI

Arxiv

0+阅读 · 1月5日

MCP-SandboxScan: WASM-based Secure Execution and Runtime Analysis for MCP Tools

Arxiv

0+阅读 · 1月3日

MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use

Arxiv

0+阅读 · 2025年12月31日

相关基金

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

多功能超病毒递送系统的构建及其作用机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

植物病毒的微流控芯片ELISA智能便携平台测定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员