Optimizing Agent Planning for Security and Autonomy - 专知论文

会员服务 ·

0

自主性 · 操作 · 智能体 · 提示注入 · 系统 ·

Optimizing Agent Planning for Security and Autonomy

翻译：优化面向安全与自主性的智能体规划

Aashish Kolluri,Rishi Sharma,Manuel Costa,Boris Köpf,Tobias Nießen,Mark Russinovich,Shruti Tople,Santiago Zanella-Béguelin

from arxiv, 33 pages, 6 figures

Indirect prompt injection attacks threaten AI agents that execute consequential actions, motivating deterministic system-level defenses. Such defenses can provably block unsafe actions by enforcing confidentiality and integrity policies, but currently appear costly: they reduce task completion rates and increase token usage compared to probabilistic defenses. We argue that existing evaluations miss a key benefit of system-level defenses: reduced reliance on human oversight. We introduce autonomy metrics to quantify this benefit: the fraction of consequential actions an agent can execute without human-in-the-loop (HITL) approval while preserving security. To increase autonomy, we design a security-aware agent that (i) introduces richer HITL interactions, and (ii) explicitly plans for both task progress and policy compliance. We implement this agent design atop an existing information-flow control defense against prompt injection and evaluate it on the AgentDojo and WASP benchmarks. Experiments show that this approach yields higher autonomy without sacrificing utility.

翻译：间接提示注入攻击威胁着执行关键操作的AI智能体，这促使确定性系统级防御机制的发展。此类防御通过执行保密性与完整性策略，可证明地阻断不安全操作，但目前看来代价高昂：与概率性防御相比，它们会降低任务完成率并增加令牌使用量。我们认为现有评估忽略了系统级防御的一个关键优势：降低对人类监督的依赖。为此我们引入自主性度量指标来量化这一优势：即在保障安全性的前提下，智能体无需人机协同（HITL）审批即可执行的关键操作比例。为提升自主性，我们设计了一种具备安全意识的智能体，其具备以下特征：（i）引入更丰富的HITL交互机制；（ii）对任务进度与策略合规性进行显式规划。我们在现有针对提示注入的信息流控制防御框架上实现了该智能体设计，并在AgentDojo和WASP基准测试中进行了评估。实验表明，该方法能在不牺牲实用性的前提下实现更高的自主性。

0

相关内容

自主性

AI智能体时代大模型安全风险与攻防新挑战

AI智能体时代大模型安全风险与攻防新挑战

专知会员服务

12+阅读 · 2月27日

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

专知会员服务

19+阅读 · 2月22日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

28+阅读 · 1月13日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体化人工智能：架构、应用及未来发展方向的综合综述

智能体化人工智能：架构、应用及未来发展方向的综合综述

专知会员服务

51+阅读 · 2025年12月1日

中文版 | 多智能体系统在国防领域的应用：提升战略规划与自主作战能力

中文版 | 多智能体系统在国防领域的应用：提升战略规划与自主作战能力

专知会员服务

26+阅读 · 2025年5月8日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

30+阅读 · 2025年5月3日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

52+阅读 · 2024年6月7日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

15+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

Arxiv

0+阅读 · 3月10日

Tracking Capabilities for Safer Agents

Arxiv

0+阅读 · 3月1日

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Arxiv

0+阅读 · 2月25日

Systems Security Foundations for Agentic Computing

Systems Security Foundations for Agentic Computing

Arxiv

0+阅读 · 2月19日

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Arxiv

0+阅读 · 2月16日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

Arxiv

1+阅读 · 2月11日

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Arxiv

0+阅读 · 2月7日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月6日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

7+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

7+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

8+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

12+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

AI智能体时代大模型安全风险与攻防新挑战

AI智能体时代大模型安全风险与攻防新挑战

专知会员服务

12+阅读 · 2月27日

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

专知会员服务

19+阅读 · 2月22日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

智能体化 AI 与网络安全综述：挑战、机遇与用例原型

专知会员服务

28+阅读 · 1月13日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体化人工智能：架构、应用及未来发展方向的综合综述

智能体化人工智能：架构、应用及未来发展方向的综合综述

专知会员服务

51+阅读 · 2025年12月1日

中文版 | 多智能体系统在国防领域的应用：提升战略规划与自主作战能力

中文版 | 多智能体系统在国防领域的应用：提升战略规划与自主作战能力

专知会员服务

26+阅读 · 2025年5月8日

《多智能体强化学习中机制设计的优化》103页

《多智能体强化学习中机制设计的优化》103页

专知会员服务

30+阅读 · 2025年5月3日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

52+阅读 · 2024年6月7日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

15+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

73+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

相关论文

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

Arxiv

0+阅读 · 3月10日

Tracking Capabilities for Safer Agents

Arxiv

0+阅读 · 3月1日

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Arxiv

0+阅读 · 2月25日

Systems Security Foundations for Agentic Computing

Systems Security Foundations for Agentic Computing

Arxiv

0+阅读 · 2月19日

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Arxiv

0+阅读 · 2月16日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

Arxiv

1+阅读 · 2月11日

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Arxiv

0+阅读 · 2月7日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月6日

AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

Arxiv

0+阅读 · 2月3日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员