人工智能代理为何在云根因分析中系统性失效？ (Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?) - 专知论文

会员服务 ·

0

分析 · 失效 · 系统 · 智能代理 · 自动化 ·

Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

翻译：人工智能代理为何在云根因分析中系统性失效？

Taeyoon Kim,Woohyeok Park,Hoyeong Yun,Kyungyong Lee

Failures in large-scale cloud systems incur substantial financial losses, making automated Root Cause Analysis (RCA) essential for operational stability. Recent efforts leverage Large Language Model (LLM) agents to automate this task, yet existing systems exhibit low detection accuracy even with capable models, and current evaluation frameworks assess only final answer correctness without revealing why the agent's reasoning failed. This paper presents a process level failure analysis of LLM-based RCA agents. We execute the full OpenRCA benchmark across five LLM models, producing 1,675 agent runs, and classify observed failures into 12 pitfall types across intra-agent reasoning, inter-agent communication, and agent-environment interaction. Our analysis reveals that the most prevalent pitfalls, notably hallucinated data interpretation and incomplete exploration, persist across all models regardless of capability tier, indicating that these failures originate from the shared agent architecture rather than from individual model limitations. Controlled mitigation experiments further show that prompt engineering alone cannot resolve the dominant pitfalls, whereas enriching the inter-agent communication protocol reduces communication-related failures by up to 15 percentage points. The pitfall taxonomy and diagnostic methodology developed in this work provide a foundation for designing more reliable autonomous agents for cloud RCA.

翻译：大规模云系统故障会造成重大经济损失，使得自动化根因分析（RCA）对运维稳定性至关重要。近期研究尝试利用大语言模型（LLM）代理来自动化此任务，然而现有系统即使采用性能强大的模型，其检测准确率依然较低，且当前评估框架仅评估最终答案的正确性，未能揭示代理推理失败的原因。本文对基于LLM的RCA代理进行了过程级失效分析。我们在五个LLM模型上完整执行了OpenRCA基准测试，生成了1,675次代理运行记录，并将观察到的失效归类为12种缺陷类型，涵盖代理内部推理、代理间通信以及代理-环境交互三个维度。我们的分析表明，最普遍的缺陷——特别是幻觉数据解读和不完全探索——在所有模型中均持续存在，且与模型能力层级无关，这表明这些失效源于共享的代理架构，而非个体模型的局限性。受控缓解实验进一步表明，仅靠提示工程无法解决主导性缺陷，而通过丰富代理间通信协议，可将通信相关故障减少多达15个百分点。本研究提出的缺陷分类法和诊断方法，为设计更可靠的云RCA自主代理奠定了基础。

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

29+阅读 · 2024年8月5日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

【KDD2023】增量式因果图学习用于在线无监督根源分析

【KDD2023】增量式因果图学习用于在线无监督根源分析

专知会员服务

21+阅读 · 2023年5月20日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分布式传感器网络因果关系分析的复杂制造系统过程监控与诊断

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

Root Cause Analysis Method Based on Large Language Models with Residual Connection Structures

Arxiv

0+阅读 · 2月9日

Systematic Failures in Collective Reasoning under Distributed Information in Multi-Agent LLMs

Arxiv

0+阅读 · 2月6日

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Arxiv

0+阅读 · 2月5日

Root Cause Analysis of Outliers with Missing Structural Knowledge

Arxiv

0+阅读 · 2月4日

Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Arxiv

0+阅读 · 1月30日

Stalled, Biased, and Confused: Uncovering Reasoning Failures in LLMs for Cloud-Based Root Cause Analysis

Arxiv

0+阅读 · 1月29日

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Arxiv

0+阅读 · 1月21日

Secure and Efficient Access Control for Computer-Use Agents via Context Space

Arxiv

0+阅读 · 1月14日

Why AI Alignment Failure Is Structural: Learned Human Interaction Structures and AGI as an Endogenous Evolutionary Shock

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

29+阅读 · 2024年8月5日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

大模型如何用因果性？最新《大型语言模型与因果推断在协作中的应用》全面综述

专知会员服务

50+阅读 · 2024年3月17日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

【KDD2023】增量式因果图学习用于在线无监督根源分析

【KDD2023】增量式因果图学习用于在线无监督根源分析

专知会员服务

21+阅读 · 2023年5月20日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何做数据治理？

如何做数据治理？

智能交通技术

19+阅读 · 2019年4月20日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

相关论文

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

Root Cause Analysis Method Based on Large Language Models with Residual Connection Structures

Arxiv

0+阅读 · 2月9日

Systematic Failures in Collective Reasoning under Distributed Information in Multi-Agent LLMs

Arxiv

0+阅读 · 2月6日

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Arxiv

0+阅读 · 2月5日

Root Cause Analysis of Outliers with Missing Structural Knowledge

Arxiv

0+阅读 · 2月4日

Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory

Arxiv

0+阅读 · 1月30日

Stalled, Biased, and Confused: Uncovering Reasoning Failures in LLMs for Cloud-Based Root Cause Analysis

Arxiv

0+阅读 · 1月29日

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Arxiv

0+阅读 · 1月21日

Secure and Efficient Access Control for Computer-Use Agents via Context Space

Arxiv

0+阅读 · 1月14日

Why AI Alignment Failure Is Structural: Learned Human Interaction Structures and AGI as an Endogenous Evolutionary Shock

Arxiv

0+阅读 · 1月13日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

随机机械系统的建模和控制问题

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分布式传感器网络因果关系分析的复杂制造系统过程监控与诊断

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员