AI agents today have passwords but no permission slips. They execute tool calls (fund transfers, database queries, shell commands, sub-agent delegation) with no standard mechanism to enforce authorization before the action executes. Current safety architectures rely on model alignment (probabilistic, training-time) and post-hoc evaluation (retrospective, batch). Neither provides deterministic, policy-based enforcement at the individual tool call level. We characterize this gap as the pre-action authorization problem and present the Open Agent Passport (OAP), an open specification and reference implementation that intercepts tool calls synchronously before execution, evaluates them against a declarative policy, and produces a cryptographically signed audit record. OAP enforces authorization decisions in a measured median of 53 ms (N=1,000). In a live adversarial testbed (4,437 authorization decisions across 1,151 sessions, $5,000 bounty), social engineering succeeded against the model 74.6% of the time under a permissive policy; under a restrictive OAP policy, a comparable population of attackers achieved a 0% success rate across 879 attempts. We distinguish pre-action authorization from sandboxed execution (contains blast radius but does not prevent unauthorized actions) and model-based screening (probabilistic), and show they are complementary. The same infrastructure that enforces security constraints (spending limits, capability scoping) also enforces quality gates, operational contracts, and compliance controls. The specification is released under Apache 2.0 (DOI: 10.5281/zenodo.18901596).


翻译:当前AI智能体拥有密码但缺乏授权凭证。它们在执行工具调用(资金转账、数据库查询、shell命令、子智能体委派)时,缺乏在操作执行前强制实施授权的标准机制。现有安全架构依赖于模型对齐(概率性、训练时)和事后评估(回顾性、批处理),两者均无法在单次工具调用层面提供确定性、基于策略的强制执行。我们将其界定为预操作授权问题,并提出开放智能体通行证(OAP)——一种开放规范与参考实现,可在执行前同步拦截工具调用,依据声明式策略对其进行评估,并生成经加密签名的审计记录。OAP以53毫秒的中位测量时间(N=1,000)强制执行授权决策。在实时对抗测试环境中(4,437条授权决策,覆盖1,151次会话,5,000美元悬赏),在宽松策略下,社交工程攻击成功绕过模型的概率为74.6%;而在OAP严格策略约束下,同等规模的攻击者在879次尝试中实现0%成功率。我们将预操作授权与沙箱执行(控制爆炸半径但无法阻止未授权操作)及基于模型的筛查(概率性)进行区分,并证明三者具有互补性。强制执行安全约束(支出限额、能力范围限制)的同一基础设施,同样可用于实施质量门控、运营契约和合规控制。本规范基于Apache 2.0协议发布(DOI: 10.5281/zenodo.18901596)。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
美以伊冲突:无人机与人工智能的运用
专知会员服务
0+阅读 · 12分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 32分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员