AI agents that interact with the real world through tool calls pose fundamental safety challenges: agents might leak private information, cause unintended side effects, or be manipulated through prompt injection. To address these challenges, we propose to put the agent in a programming-language-based "safety harness": instead of calling tools directly, agents express their intentions as code in a capability-safe language: Scala 3 with capture checking. Capabilities are program variables that regulate access to effects and resources of interest. Scala's type system tracks capabilities statically, providing fine-grained control over what an agent can do. In particular, it enables local purity, the ability to enforce that sub-computations are side-effect-free, preventing information leakage when agents process classified data. We demonstrate that extensible agent safety harnesses can be built by leveraging a strong type system with tracked capabilities. Our experiments show that agents can generate capability-safe code with no significant loss in task performance, while the type system reliably prevents unsafe behaviors such as information leakage and malicious side effects.


翻译:通过工具调用与现实世界交互的AI智能体带来了根本性的安全挑战:智能体可能泄露私人信息、引发意外副作用,或通过提示注入被恶意操纵。为应对这些挑战,我们提出将智能体置于基于编程语言的“安全约束装置”中:智能体不再直接调用工具,而是将其意图表达为采用能力安全语言——即支持捕获检查的Scala 3——编写的代码。能力作为程序变量,用于规范对目标效果和资源的访问。Scala的类型系统可静态追踪能力,从而实现对智能体行为的细粒度控制。该系统特别支持局部纯化功能,即能够强制子计算过程无副作用,防止智能体在处理涉密数据时发生信息泄露。我们通过利用具备能力追踪功能的强类型系统,论证了可扩展智能体安全约束装置的构建可行性。实验表明,智能体能够生成符合能力安全规范的代码,且任务性能未出现显著下降,同时类型系统能可靠地阻止信息泄露和恶意副作用等不安全行为。

0
下载
关闭预览

相关内容

《军用自主人工智能系统的治理与安全》
专知会员服务
18+阅读 · 4月21日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
53+阅读 · 2024年6月7日
专知会员服务
47+阅读 · 2021年6月25日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月24日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
《军用自主人工智能系统的治理与安全》
专知会员服务
18+阅读 · 4月21日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
53+阅读 · 2024年6月7日
专知会员服务
47+阅读 · 2021年6月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员