Kubernetes incidents are diagnosed reliably only when a root-cause system's reported gains come from incident evidence rather than scenario-specific shortcuts. We present Graph Traversal Agent, a graph-guided RCA agent that combines LLM reasoning with specialized tools. The model reasons over a typed evidence graph, while deterministic graph and tool operations collect evidence, bound the search, and check proposed verdicts. We map operational constraints, including read-only evidence collection, propagation-aware diagnosis, bounded execution, and independently validated verdicts, to a typed incident graph, a LangGraph traversal state machine, and a separate validation stage. On ITBench snapshots scored by one fixed qwen-plus judge, the audited system raises root-cause-entity F1 over an earlier iteration of the same system from 0.6087 to 0.9130 on a 23-scenario common subset. A prompt-level ablation separates prompt-tuned gains from gains that survive once scenario-specific hints are removed: the stripped-prompt configuration retains 0.6958 F1 on a 19-scenario subset. The surviving gain concentrates on ChaosMesh scenarios whose ground-truth root cause is the injected fault object already present in the evidence graph, so we report it as benchmark-coupled rather than broad cross-cluster RCA evidence. Lightweight checks, including same-judge comparison, prompt-level ablation, cascade-source checking, and a telemetry no-leak test, mark claims as supported, pending, or out of scope. We scope the work to ITBench OpenTelemetry-demo snapshots. Live-cluster trials served as an engineering stress test, but alert state and trace availability did not stay stable enough for controlled scoring, so we make no production-readiness or mean-time-to-repair claim.


翻译:Kubernetes集群故障的诊断可靠性,取决于根因分析系统所报告的结果是否源于故障证据,而非特定场景下的捷径。本文提出图遍历智能体(Graph Traversal Agent),一种结合大语言模型推理与专用工具的图引导根因分析系统。该模型基于类型化的证据图进行推理,同时通过确定性图操作与工具来收集证据、约束搜索范围并验证最终结论。我们将操作约束(包括只读证据收集、传播感知诊断、有界执行及独立验证结论)映射为类型化故障图、LangGraph遍历状态机以及独立的验证阶段。在ITBench快照数据集上,经单一固定qwen-plus裁判评估,该可审计系统在23个场景的公共子集上,根因实体F1得分从同一系统早期版本的0.6087提升至0.9130。通过提示词消融实验,可区分提示词调优带来的增益与去除场景特定提示后仍保留的增益:去除提示词后的配置在19个场景子集上仍保持0.6958的F1得分。该保留增益集中于ChaosMesh场景,其真实根因正是已存在于证据图中的注入故障对象,因此我们将其归因于基准耦合现象,而非通用的跨集群根因分析证据。我们采用轻量级校验手段(包括同裁判对比、提示词消融、级联源检查及遥测无泄漏测试),将结论标记为已验证、待定或超出范围。本研究限定于ITBench OpenTelemetry-demo快照。虽进行了在线集群试验作为工程压力测试,但由于告警状态与链路追踪数据稳定性不足,无法进行受控评分,故本文不作任何生产就绪性或平均修复时间声明。

0
下载
关闭预览

相关内容

大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
图数据库综述
专知会员服务
18+阅读 · 2025年6月2日
《图神经网络不确定性》最新综述
专知会员服务
28+阅读 · 2024年3月13日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
【干货分享】AIOps之根因分析
腾讯大讲堂
11+阅读 · 2018年4月10日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
0+阅读 · 37分钟前
Agentic RL:框架、实践与长程智能体训练
专知会员服务
0+阅读 · 39分钟前
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员