AI agents often fail in ways that are difficult to localize because executions are probabilistic, long-horizon, multi-agent, and mediated by noisy tool outputs. We address this gap by manually annotating failed agent runs and release a novel benchmark of 115 failed trajectories spanning structured API workflows, incident management, and open-ended web/file tasks. Each trajectory is annotated with a critical failure step and a category from a grounded-theory derived, cross-domain failure taxonomy. To mitigate the human cost of failure attribution, we present AGENTRX, an automated domain-agnostic diagnostic framework that pinpoints the critical failure step in a failed agent trajectory. It synthesizes constraints, evaluates them step-by-step, and produces an auditable validation log of constraint violations with associated evidence; an LLM-based judge uses this log to localize the critical step and category. Our framework improves step localization and failure attribution over existing baselines across three domains.


翻译:AI智能体常因执行过程的概率性、长时程、多智能体特性及噪声工具输出的中介作用,其故障难以准确定位。本研究通过人工标注故障智能体运行轨迹,构建了包含115个故障轨迹的新型基准数据集,涵盖结构化API工作流、事件管理与开放式网页/文件任务三大领域。每个轨迹均标注了关键故障步骤,并依据扎根理论推导的跨领域故障分类体系进行归类。为降低故障归因的人工成本,我们提出AGENTRX——一种领域无关的自动化诊断框架,可精准定位故障智能体轨迹中的关键失效步骤。该框架通过综合约束条件、逐步骤评估约束满足度,生成包含约束违反证据的可审计验证日志;基于LLM的判定器利用该日志定位关键步骤及故障类别。实验表明,本框架在三个不同领域中,其步骤定位与故障归因能力均优于现有基线方法。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
2025中国AI Agent商业应用场景洞察研究
专知会员服务
31+阅读 · 2025年8月11日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
【工业智能】电网故障诊断的智能技术
产业智能官
34+阅读 · 2018年5月28日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
2025中国AI Agent商业应用场景洞察研究
专知会员服务
31+阅读 · 2025年8月11日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员