AI agents, predominantly powered by large language models (LLMs), are vulnerable to indirect prompt injection, in which malicious instructions embedded in untrusted data can trigger dangerous agent actions. This position paper discusses our vision for system-level defenses against indirect prompt injection attacks. We articulate three positions: (1) dynamic replanning and security policy updates are often necessary for dynamic tasks and realistic environments; (2) certain context-dependent security decisions would still require LLMs (or other learned models), but should only be made within system designs that strictly constrain what the model can observe and decide; (3) in inherently ambiguous cases, personalization and human interaction should be treated as core design considerations. In addition to our main positions, we discuss limitations of existing benchmarks that can create a false sense of utility and security. We also highlight the value of system-level defenses, which serve as the skeleton of agentic systems by structuring and controlling agent behaviors, integrating rule-based and model-based security checks, and enabling more targeted research on model robustness and human interaction.


翻译:AI代理(主要由大型语言模型驱动)容易受到间接提示注入攻击,即嵌入不可信数据中的恶意指令可能触发危险代理行为。本文立场论文阐述了我们关于间接提示注入攻击系统级防御的愿景。我们提出三个核心观点:(1)动态重新规划和安全策略更新对于动态任务和真实环境往往是必要的;(2)某些依赖上下文的 安全决策仍需依赖大型语言模型(或其他学习模型),但必须在严格约束模型观察与决策范围的系统设计中执行;(3)对于固有歧义场景,个性化与人类交互应作为核心设计考量。除主要观点外,我们讨论了现有基准测试的局限性——这些测试可能造成功效与安全性的虚假认知。我们还强调系统级防御的价值:其作为代理系统的骨架,通过结构化控制代理行为、整合规则与模型双重安全校验机制,推动模型鲁棒性与人类交互的针对性研究。

0
下载
关闭预览

相关内容

《人工智能在网络防御中的机遇》
专知会员服务
8+阅读 · 6月8日
《军用自主人工智能系统的治理与安全》
专知会员服务
18+阅读 · 4月21日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
专知会员服务
47+阅读 · 2021年6月25日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员