Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability - 专知论文

会员服务 ·

0

系统 · 智能体大语言模型 · 智能体 · 语言模型 · 在线 ·

Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability

翻译：多智能体大语言模型系统中浪费计算的早期故障感知诊断

Xianyou Li,Weiran Yan,Yichao Wu,Penghao Liang,Mengwei Yuan,Jianan Liu,Jing Yang

Failure-aware observability diagnoses wasted computation in multi-agent LLM systems before final-answer evaluation can explain what went wrong. We propose a trace-based framework for a three-agent architecture -- orchestrator, search agent, and execution agent -- that converts structured events into online signals for loops, budget pressure, low information gain, and tool instability, then adds offline semantic grounding metrics and selective LLM-as-judge evaluation. On 165 GAIA validation traces under identical caps, 98 runs produce usable final answers and 67 fail or stop without one. Among warned failed runs, 58.1% of tokens are spent after the first warning on average, indicating substantial opportunity for intervention. A 10-task Level-2 pilot uses warnings to diversify search or require evidence, reducing post-warning token fraction from 0.638 in the baseline to 0.304. The results support a layered design: cheap online signals help the orchestrator redirect or halt redundant behavior, while deeper semantic checks identify whether completed answers are grounded enough to trust.

翻译：故障感知观测通过在最终答案评估之前诊断多智能体大语言模型系统中的浪费计算，并解释出错原因。我们提出了一种基于追踪的框架，针对由协调器、搜索智能体和执行智能体组成的三智能体架构，将结构化事件转换为在线信号，用于检测循环、预算压力、低信息增益和工具不稳定性，并补充了离线语义基础度量及选择性LLM-as-judge评估。在一致的预算限制下，对165条GAIA验证追踪进行测试，其中98次运行产生了可用最终答案，67次运行失败或中途终止。在发出警告的失败运行中，警告后平均消耗了58.1%的令牌，这表明存在显著的干预机会。一项包含10个任务的二级试点实验，利用警告来引导多样化搜索或要求提供证据，将基线中警告后的令牌占比从0.638降至0.304。这些结果支持分层设计：低成本的在线信号帮助协调器重定向或终止冗余行为，而更深入的语义检查则用于判断已完成的答案是否具备足够的可信基础。

0

相关内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

35+阅读 · 2025年4月15日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

47+阅读 · 2025年3月4日

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

专知会员服务

29+阅读 · 2025年2月25日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

29+阅读 · 2025年2月17日

多循环嵌套的大语言模型多智能体指挥控制过程

多循环嵌套的大语言模型多智能体指挥控制过程

专知会员服务

44+阅读 · 2025年1月19日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

齿轮早期微小故障的综合诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

AgentLeak: A Benchmark for Internal-Channel Privacy Leakage in Multi-Agent LLM Systems

Arxiv

0+阅读 · 6月15日

Parallelizing Tool Execution and LLM Generation for Low-Latency Agent Serving

Arxiv

0+阅读 · 6月13日

Risk-Aware LLM Agents for Geospatial Data Retrieval: Design and Preliminary Adversarial Evaluation

Arxiv

0+阅读 · 6月13日

Knowledge-Based Zero-Replay Debugging of Multi-Agent LLM Traces

Arxiv

0+阅读 · 6月11日

Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 6月11日

Silent Failure in LLM Agent Systems: The Entropy Principle and the Inevitable Disorder of Autonomous Agents

Arxiv

0+阅读 · 6月6日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月3日

How Generation Architecture Shapes Code Complexity in Multi-Agent LLM Systems: A Paired Study on HumanEval

Arxiv

0+阅读 · 5月29日

TrajAudit: Automated Failure Diagnosis for Agentic Coding Systems

Arxiv

0+阅读 · 5月26日

VIP会员

文章信息

相关主题

智能体大语言模型

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

35+阅读 · 2025年4月15日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

47+阅读 · 2025年3月4日

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

专知会员服务

29+阅读 · 2025年2月25日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

29+阅读 · 2025年2月17日

多循环嵌套的大语言模型多智能体指挥控制过程

多循环嵌套的大语言模型多智能体指挥控制过程

专知会员服务

44+阅读 · 2025年1月19日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

AgentLeak: A Benchmark for Internal-Channel Privacy Leakage in Multi-Agent LLM Systems

Arxiv

0+阅读 · 6月15日

Parallelizing Tool Execution and LLM Generation for Low-Latency Agent Serving

Arxiv

0+阅读 · 6月13日

Risk-Aware LLM Agents for Geospatial Data Retrieval: Design and Preliminary Adversarial Evaluation

Arxiv

0+阅读 · 6月13日

Knowledge-Based Zero-Replay Debugging of Multi-Agent LLM Traces

Arxiv

0+阅读 · 6月11日

Maestro: Workload-Aware Cross-Cluster Scheduling for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 6月11日

Silent Failure in LLM Agent Systems: The Entropy Principle and the Inevitable Disorder of Autonomous Agents

Arxiv

0+阅读 · 6月6日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月3日

How Generation Architecture Shapes Code Complexity in Multi-Agent LLM Systems: A Paired Study on HumanEval

Arxiv

0+阅读 · 5月29日

TrajAudit: Automated Failure Diagnosis for Agentic Coding Systems

Arxiv

0+阅读 · 5月26日

相关基金

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

齿轮早期微小故障的综合诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员