Large Language Models (LLMs) are rapidly evolving into agentic systems that interact with external tools and environments, introducing new security risks such as indirect prompt injection attacks through untrusted external sources. Existing defenses mainly focus on blocking malicious content at inference time, and current red-teaming methods primarily optimize attack success. As a result, developers have limited visibility into how latent prompt injections emerge and propagate through agents. We propose PI-Hunter, an automated agentic auditing framework for proactive vulnerability exposure in LLM agents. PI-Hunter constructs realistic source-aware test cases and iteratively evolves them through feedback-driven exploration to induce agents to retrieve and reveal latent malicious instructions embedded within external environments. Extensive experiments across multiple benchmarks, agent architectures, attacks, and defenses demonstrate that PI-Hunter substantially improves vulnerability exposure and attack-surface coverage over strong automated red-teaming baselines, while remaining effective under existing prompt injection defenses.


翻译:摘要:大型语言模型(LLM)正迅速演变为与外部工具及环境交互的智能体系统,由此引入了通过不可信外部源实施间接提示注入攻击等新型安全风险。现有防御措施主要聚焦于推理阶段的恶意内容拦截,而当前的红队测试方法则主要优化攻击成功率。因此,开发者对于潜在提示注入如何产生并在智能体间传播的可见性极为有限。我们提出PI-Hunter——一种面向LLM智能体的自动化审计框架,旨在主动暴露其脆弱性。该框架通过构建符合实际的源感知测试用例,并基于反馈驱动探索迭代演化这些用例,诱使智能体检索并揭示嵌入外部环境中的潜在恶意指令。跨多个基准测试、智能体架构、攻击类型及防御措施的大量实验表明,与强自动化红队测试基线相比,PI-Hunter显著提升了脆弱性暴露水平与攻击面覆盖率,且对现有提示注入防御措施依然有效。

0
下载
关闭预览

相关内容

《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
23+阅读 · 5月30日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
编辑推荐 | 红外弱小目标检测算法综述
中国图象图形学报
21+阅读 · 2020年10月12日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
23+阅读 · 5月30日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员