Root cause analysis (RCA) is essential for diagnosing failures within complex software systems to ensure system reliability. The highly distributed and interdependent nature of modern cloud-based systems often complicates RCA efforts, particularly for multi-hop fault propagation, where symptoms appear far from their true causes. Recent advancements in Large Language Models (LLMs) present new opportunities to enhance automated RCA. However, their practical value for RCA depends on the fidelity of reasoning and decision-making. Existing work relies on historical incident corpora, operates directly on high-volume telemetry beyond current LLM capacity, or embeds reasoning inside complex multi-agent pipelines -- conditions that obscure whether failures arise from reasoning itself or from peripheral design choices. We present a focused empirical evaluation that isolates an LLM's reasoning behavior. We design a controlled experimental framework that foregrounds the LLM by using a simplified experimental setting. We evaluate six LLMs under two agentic workflows (ReAct and Plan-and-Execute) and a non-agentic baseline on two real-world case studies (GAIA and OpenRCA). In total, we executed 48,000 simulated failure scenarios, totaling 228 days of execution time. We measure both root-cause accuracy and the quality of intermediate reasoning traces. We produce a labeled taxonomy of 16 common RCA reasoning failures and use an LLM-as-a-Judge for annotation. Our results clarify where current open-source LLMs succeed and fail in multi-hop RCA, quantify sensitivity to input data modalities, and identify reasoning failures that predict final correctness. Together, these contributions provide transparent and reproducible empirical results and a failure taxonomy to guide future work on reasoning-driven system diagnosis.


翻译:根因分析(RCA)对于诊断复杂软件系统中的故障以确保系统可靠性至关重要。现代云基系统高度分布式且相互依赖的特性常常使RCA工作复杂化,尤其是在多跳故障传播场景中,其症状往往远离真实原因。大语言模型(LLMs)的最新进展为增强自动化RCA带来了新的机遇。然而,它们对RCA的实际价值取决于其推理与决策的保真度。现有工作依赖于历史事件语料库,直接操作超出当前LLM能力的大规模遥测数据,或将推理嵌入复杂的多智能体流程中——这些条件模糊了故障是源于推理本身还是源于外围设计选择。我们提出了一项聚焦的实证评估,以隔离LLM的推理行为。我们设计了一个受控实验框架,通过简化的实验设置来凸显LLM的作用。我们在两个真实世界案例研究(GAIA和OpenRCA)上,评估了六种LLM在两种智能体工作流(ReAct和Plan-and-Execute)和一个非智能体基线下的表现。总计,我们执行了48,000个模拟故障场景,累计执行时间达228天。我们同时测量了根因准确性和中间推理轨迹的质量。我们构建了一个包含16种常见RCA推理失效的标记分类法,并使用LLM-as-a-Judge进行标注。我们的结果阐明了当前开源LLM在多跳RCA中的成功与失败之处,量化了对输入数据模态的敏感性,并识别了能预测最终正确性的推理失效。这些贡献共同提供了透明且可复现的实证结果以及一个失效分类法,以指导未来基于推理的系统诊断研究。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
【KDD2023】增量式因果图学习用于在线无监督根源分析
专知会员服务
21+阅读 · 2023年5月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【干货分享】AIOps之根因分析
腾讯大讲堂
11+阅读 · 2018年4月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
【KDD2023】增量式因果图学习用于在线无监督根源分析
专知会员服务
21+阅读 · 2023年5月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员