LLM agents increasingly run inside execution harnesses that dispatch tools, allocate resources, and route messages between specialized components. However, a harness can return a correct, benign answer over a trajectory that accesses unauthorized resources or leaks context to the wrong agent. Output-level evaluation cannot see these failures, yet most safety benchmarks score only final outputs or terminal states, even though many violations occur mid-trajectory rather than at termination. The central question is whether the harness respects user intent, permission boundaries, and information-flow constraints throughout execution. To address this gap, we propose HarnessAudit, a framework that audits full execution trajectories across boundary compliance, execution fidelity, and system stability, with a focus on multi-agent harnesses where these risks are most pronounced. We further introduce HarnessAudit-Bench, a benchmark of 210 tasks across eight real-world domains, instantiated in both single-agent and multi-agent configurations with embedded safety constraints. Evaluating ten harness configurations across frontier models and three multi-agent frameworks, we find that: (i) task completion is misaligned with safe execution, and violations accumulate with trajectory length; (ii) safety risks vary across domains, task types, and agent roles; (iii) most violations concentrate in resource access and inter-agent information transfer; and (iv) multi-agent collaboration expands the safety risk surface, while harness design sets the upper bound of safe deployment.


翻译:大语言模型智能体越来越多地在执行框架内运行,这些框架负责调度工具、分配资源以及在专门组件之间路由消息。然而,一个执行框架可能会在一条访问了未授权资源或向错误智能体泄露上下文的轨迹上,返回一个正确且无害的答案。输出级评估无法发现这些故障,但多数安全基准仅对最终输出或终止状态进行评分,即便许多违规行为发生在轨迹中途而非终点处。核心问题在于,执行框架在整个执行过程中是否尊重用户意图、权限边界以及信息流约束。为填补这一空白,我们提出了HarnessAudit,这是一个对完整执行轨迹进行审计的框架,涵盖边界合规性、执行保真度和系统稳定性,重点关注这些风险最为突出的多智能体执行框架。我们进一步引入了HarnessAudit-Bench,这是一个包含210个任务、跨越八个真实世界领域的基准测试集,以单智能体和多智能体两种配置实例化,并嵌入了安全约束。通过对领先模型以及三种多智能体框架下的十种执行框架配置进行评测,我们发现:(i) 任务完成度与安全执行之间存在偏差,违规行为随轨迹长度累积;(ii) 安全风险因领域、任务类型和智能体角色而异;(iii) 大多数违规行为集中在资源访问和智能体间信息传输环节;(iv) 多智能体协作扩大了安全风险面,而执行框架设计则决定了安全部署的上限。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
21+阅读 · 5月28日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
《结合机器人行为以实现安全、智能的执行》
专知会员服务
17+阅读 · 2023年7月4日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
21+阅读 · 5月28日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
《结合机器人行为以实现安全、智能的执行》
专知会员服务
17+阅读 · 2023年7月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员