Are AI-assisted Development Tools Immune to Prompt Injection? - 专知论文

会员服务 ·

0

Are AI-assisted Development Tools Immune to Prompt Injection?

翻译：AI辅助开发工具能否免疫提示注入？

Charoes Huang,Xin Huang,Amin Milani Fard

Prompt injection is listed as the number-one vulnerability class in the OWASP Top 10 for LLM Applications that can subvert LLM guardrails, disclose sensitive data, and trigger unauthorized tool use. Developers are rapidly adopting AI-assisted development tools built on the Model Context Protocol (MCP). However, their convenience comes with security risks, especially prompt-injection attacks delivered via tool-poisoning vectors. While prior research has studied prompt injection in LLMs, the security posture of real-world MCP clients remains underexplored. We present the first empirical analysis of prompt injection with the tool-poisoning vulnerability across seven widely used MCP clients: Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI, and Langflow. We identify their detection and mitigation mechanisms, as well as the coverage of security features, including static validation, parameter visibility, injection detection, user warnings, execution sandboxing, and audit logging. Our evaluation reveals significant disparities. While some clients, such as Claude Desktop, implement strong guardrails, others, such as Cursor, exhibit high susceptibility to cross-tool poisoning, hidden parameter exploitation, and unauthorized tool invocation. We further provide actionable guidance for MCP implementers and the software engineering community seeking to build secure AI-assisted development workflows.

翻译：提示注入被列为OWASP大语言模型应用十大安全风险中的首要漏洞类别，此类攻击可破坏大语言模型的安全防护机制、泄露敏感数据并触发未授权工具调用。开发者正在快速采用基于模型上下文协议（MCP）构建的AI辅助开发工具，但这些工具的便利性伴随着安全风险，尤其是通过工具投毒向量实施的提示注入攻击。虽然已有研究探讨大语言模型中的提示注入问题，但真实世界MCP客户端的安全态势仍缺乏探索。我们首次对七个广泛使用的MCP客户端（Claude Desktop、Claude Code、Cursor、Cline、Continue、Gemini CLI和Langflow）进行了工具投毒漏洞提示注入的实证分析。我们识别了各客户端的安全检测与缓解机制，以及安全功能覆盖范围，包括静态验证、参数可见性、注入检测、用户警告、执行沙箱和审计日志。评估揭示了显著的安全差异：虽然Claude Desktop等客户端实施了强大的安全防护，但Cursor等客户端在跨工具投毒、隐藏参数利用和未授权工具调用方面表现出高度脆弱性。我们进一步为MCP实现者及寻求构建安全AI辅助开发工作流的软件工程社区提供了可操作的安全指导建议。

0

相关内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

17+阅读 · 5月27日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

专知会员服务

52+阅读 · 2025年4月10日

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

专知会员服务

37+阅读 · 2025年2月4日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

如何提示？浙大最新《大型语言模型提示框架》综述

如何提示？浙大最新《大型语言模型提示框架》综述

专知会员服务

83+阅读 · 2023年11月23日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Prompt Injection as Role Confusion

Arxiv

0+阅读 · 4月15日

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search

Arxiv

0+阅读 · 3月25日

Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks?

Arxiv

0+阅读 · 3月23日

Prompt Injection as Role Confusion

Arxiv

0+阅读 · 3月20日

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Arxiv

0+阅读 · 2月26日

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Arxiv

0+阅读 · 2月24日

AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks

Arxiv

0+阅读 · 2月21日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

3+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

5+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

17+阅读 · 5月27日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

17+阅读 · 2025年5月22日

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

Google发布69 页《提示工程》白皮书，介绍 Prompt Engineering 及其最佳实践

专知会员服务

52+阅读 · 2025年4月10日

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

专知会员服务

37+阅读 · 2025年2月4日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

如何提示？浙大最新《大型语言模型提示框架》综述

如何提示？浙大最新《大型语言模型提示框架》综述

专知会员服务

83+阅读 · 2023年11月23日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

ChatGPT中的提示工程(Prompt)怎么做？DAIR.AI最新《提示工程指南》，全面讲述提示技术，附书册课件视频

专知会员服务

235+阅读 · 2023年3月20日

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

【AI系统安全】《对抗性（攻防）机器学习的系统方法》，42页pdf

专知会员服务

44+阅读 · 2022年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

相关论文

Prompt Injection as Role Confusion

Arxiv

0+阅读 · 4月15日

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction

Arxiv

0+阅读 · 4月9日

Bypassing Prompt Injection Detectors through Evasive Injections

Arxiv

0+阅读 · 4月1日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search

Arxiv

0+阅读 · 3月25日

Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks?

Arxiv

0+阅读 · 3月23日

Prompt Injection as Role Confusion

Arxiv

0+阅读 · 3月20日

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Arxiv

0+阅读 · 2月26日

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Arxiv

0+阅读 · 2月24日

AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks

Arxiv

0+阅读 · 2月21日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员