Large language models (LLMs) are now routinely used to autonomously execute complex tasks, from natural language processing to dynamic workflows like web searches. The usage of tool-calling and Retrieval Augmented Generation (RAG) allows LLMs to process and retrieve sensitive corporate data, amplifying both their functionality and vulnerability to abuse. As LLMs increasingly interact with external data sources, indirect prompt injection emerges as a critical and evolving attack vector, enabling adversaries to exploit models through manipulated inputs. Through a systematic evaluation of indirect prompt injection attacks across diverse models, we analyze how susceptible current LLMs are to such attacks, which parameters, including model size and manufacturer, specific implementations, shape their vulnerability, and which attack methods remain most effective. Our results reveal that even well-known attack patterns continue to succeed, exposing persistent weaknesses in model defenses. To address these vulnerabilities, we emphasize the need for strengthened training procedures to enhance inherent resilience, a centralized database of known attack vectors to enable proactive defense, and a unified testing framework to ensure continuous security validation. These steps are essential to push developers toward integrating security into the core design of LLMs, as our findings show that current models still fail to mitigate long-standing threats.


翻译:大型语言模型(LLM)现已广泛应用于自主执行复杂任务,涵盖自然语言处理及网页搜索等动态工作流。工具调用与检索增强生成(RAG)技术的应用使LLM能够处理并检索敏感企业数据,这既提升了其功能性,也增加了被滥用的风险。随着LLM与外部数据源的交互日益频繁,间接提示注入正演变为关键且不断进化的攻击向量,使攻击者能够通过操控输入来利用模型。通过对不同模型实施系统性间接提示注入攻击评估,我们分析了当前LLM对此类攻击的敏感程度,确定了影响其脆弱性的参数(包括模型规模、制造商及特定实现方式),并验证了最高效的攻击方法。研究结果表明,即便是已知的攻击模式仍能持续得手,暴露出模型防御机制中存在的持续性弱点。针对这些漏洞,我们强调需要:加强训练流程以提升内在鲁棒性,建立已知攻击向量的集中式数据库以实施主动防御,并构建统一测试框架确保持续性安全验证。这些措施对于推动开发者将安全机制融入LLM核心设计至关重要——我们的研究显示,当前模型仍未能有效缓解长期存在的安全威胁。

0
下载
关闭预览

相关内容

定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
48+阅读 · 2023年10月25日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员