As modern microservice systems grow increasingly popular and complex-often consisting of hundreds or even thousands of fine-grained, interdependent components-they are becoming more susceptible to frequent and subtle failures. Ensuring system reliability therefore hinges on accurate and efficient failure localization. Traditional failure localization approaches based on small models lack the flexibility to adapt to diverse failure scenarios, while recent LLM-based methods suffer from two major limitations: they often rely on rigid invocation workflows that constrain the model's ability to dynamically explore optimal localization paths, and they require resource-intensive inference, making them cost-prohibitive for real-world deployment. To address these challenges, we explore the use of reinforcement fine-tuning to equip lightweight LLMs with reasoning and self-refinement capabilities, significantly improving the cost-effectiveness and adaptability of LLM-based failure localization. We begin with an empirical study to identify three key capabilities essential for accurate localization. Building on these insights, we propose a progressive multi-stage GRPO fine-tuning framework, which integrates a multi-factor failure localization grader and a recursion-of-thought actor module. The resulting model, ThinkFL, not only outperforms existing state-of-the-art LLMs and baseline methods in localization accuracy but also reduces end-to-end localization latency from minutes to seconds, demonstrating strong potential for real-world applications.


翻译:随着现代微服务系统日益普及且复杂化——通常由数百甚至数千个细粒度、相互依赖的组件构成——它们更容易出现频繁且隐蔽的故障。因此,确保系统可靠性取决于准确高效的故障定位。基于小型模型的传统故障定位方法缺乏适应多样化故障场景的灵活性,而近期基于大语言模型的方法存在两大主要局限:它们通常依赖僵化的调用工作流,限制了模型动态探索最优定位路径的能力;并且需要资源密集的推理过程,导致实际部署成本过高。为应对这些挑战,我们探索利用强化微调技术,使轻量化大语言模型具备推理与自优化能力,从而显著提升基于大语言模型的故障定位方法的成本效益与适应性。我们首先通过实证研究确定了实现精准定位所需的三项关键能力。基于这些发现,我们提出了一种渐进式多阶段GRPO微调框架,该框架整合了多因子故障定位评估器与递归思维执行器模块。由此构建的模型ThinkFL不仅在定位准确率上超越了现有最先进的大语言模型及基线方法,还将端到端定位延迟从分钟级缩短至秒级,展现出强大的实际应用潜力。

0
下载
关闭预览

相关内容

Agent+Copilot:大模型在智能运维领域的应用
专知会员服务
59+阅读 · 2024年8月11日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
微系统发展现状及其在无人装备领域应用和展望
专知会员服务
42+阅读 · 2024年2月5日
【2022新书】构建微服务:设计细粒度系统,615页pdf
专知会员服务
91+阅读 · 2022年9月4日
专知会员服务
10+阅读 · 2021年1月31日
专知会员服务
31+阅读 · 2020年12月21日
【PHM算法】PHM算法 | 故障诊断建模方法
产业智能官
68+阅读 · 2020年3月16日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
腾讯互娱刘伟 | 知识图谱在运维中的应用
开放知识图谱
20+阅读 · 2018年10月10日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员