As contemporary microservice systems become increasingly popular and complex-often comprising hundreds or even thousands of fine-grained, interdependent subsystems-they are experiencing more frequent failures. Ensuring system reliability thus demands accurate root cause localization. While many traditional graph-based and deep learning approaches have been explored for this task, they often rely heavily on pre-defined schemas that struggle to adapt to evolving operational contexts. Consequently, a number of LLM-based methods have recently been proposed. However, these methods still face two major limitations: shallow, symptom-centric reasoning that undermines accuracy, and a lack of cross-alert reuse that leads to redundant reasoning and high latency. In this paper, we conduct a comprehensive study of how Site Reliability Engineers (SREs) localize the root causes of failures, drawing insights from professionals across multiple organizations. Our investigation reveals that expert root cause analysis exhibits three key characteristics: recursiveness, multi-dimensional expansion, and cross-modal reasoning. Motivated by these findings, we introduce AMER-RCL, an agentic memory enhanced recursive reasoning framework for root cause localization in microservices. AMER-RCL employs the Recursive Reasoning RCL engine, a multi-agent framework that performs recursive reasoning on each alert to progressively refine candidate causes, while Agentic Memory incrementally accumulates and reuses reasoning from prior alerts within a time window to reduce redundant exploration and lower inference latency. Experimental results demonstrate that AMER-RCL consistently outperforms state-of-the-art methods in both localization accuracy and inference efficiency.


翻译:随着现代微服务系统日益普及和复杂化——通常包含数百甚至数千个细粒度、相互依赖的子系统——其故障发生频率也随之增高。确保系统可靠性因此需要精准的根因定位。尽管已有许多基于图的方法和深度学习方法被探索用于此任务,但它们往往严重依赖预定义的模式,难以适应不断演化的运维环境。因此,近期涌现出若干基于大语言模型的方法。然而,这些方法仍面临两大主要局限:浅层的、以症状为中心的推理损害了准确性,以及缺乏跨告警复用导致推理冗余和高延迟。本文对站点可靠性工程师如何定位故障根因进行了全面研究,汲取了来自多个组织专业人士的洞见。我们的调查发现,专家根因分析展现出三个关键特征:递归性、多维度扩展和跨模态推理。受这些发现启发,我们提出了AMER-RCL,一种基于智能体记忆增强的递归推理框架,用于微服务中的根因定位。AMER-RCL采用递归推理RCL引擎,这是一个多智能体框架,对每个告警执行递归推理以逐步精化候选原因,同时智能体记忆在时间窗口内增量积累并复用先前告警的推理,以减少冗余探索并降低推理延迟。实验结果表明,AMER-RCL在定位准确性和推理效率方面均持续优于现有最先进方法。

0
下载
关闭预览

相关内容

国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员