AI agents that interact with the real world through tool calls pose fundamental safety challenges: agents might leak private information, cause unintended side effects, or be manipulated through prompt injection. To address these challenges, we propose to put the agent in a programming-language-based "safety harness": instead of calling tools directly, agents express their intentions as code in a capability-safe language: Scala 3 with capture checking. Capabilities are program variables that regulate access to effects and resources of interest. Scala's type system tracks capabilities statically, providing fine-grained control over what an agent can do. In particular, it enables local purity, the ability to enforce that sub-computations are side-effect-free, preventing information leakage when agents process classified data. We demonstrate that extensible agent safety harnesses can be built by leveraging a strong type system with tracked capabilities. Our experiments show that agents can generate capability-safe code with no significant loss in task performance, while the type system reliably prevents unsafe behaviors such as information leakage and malicious side effects.


翻译:通过工具调用与现实世界交互的AI智能体带来了根本性的安全挑战:智能体可能泄露私人信息、引发意外副作用,或通过提示注入被恶意操纵。为应对这些挑战,我们提出将智能体置于基于编程语言的“安全约束装置”中:智能体不再直接调用工具,而是将其意图表达为采用能力安全语言——即支持捕获检查的Scala 3——编写的代码。能力作为程序变量,用于规范对目标效果和资源的访问。Scala的类型系统可静态追踪能力,从而实现对智能体行为的细粒度控制。该系统特别支持局部纯化功能,即能够强制子计算过程无副作用,防止智能体在处理涉密数据时发生信息泄露。我们通过利用具备能力追踪功能的强类型系统,论证了可扩展智能体安全约束装置的构建可行性。实验表明,智能体能够生成符合能力安全规范的代码,且任务性能未出现显著下降,同时类型系统能可靠地阻止信息泄露和恶意副作用等不安全行为。

0
下载
关闭预览

相关内容

《军用自主人工智能系统的治理与安全》
专知会员服务
11+阅读 · 4月21日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
42+阅读 · 2025年7月12日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
专知会员服务
46+阅读 · 2021年6月25日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
6+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
16+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
10+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
《军用自主人工智能系统的治理与安全》
专知会员服务
11+阅读 · 4月21日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
AI智能体基础设施
专知会员服务
42+阅读 · 2025年7月12日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
专知会员服务
46+阅读 · 2021年6月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员