ThinkFL: Self-Refining Failure Localization for Microservice Systems via Reinforcement Fine-Tuning - 专知论文

会员服务 ·

0

故障定位 · 系统 · 微调 · 自优化 · 微服务 ·

ThinkFL: Self-Refining Failure Localization for Microservice Systems via Reinforcement Fine-Tuning

翻译：ThinkFL：基于强化微调的自优化微服务系统故障定位方法

Lingzhe Zhang,Yunpeng Zhai,Tong Jia,Chiming Duan,Siyu Yu,Jinyang Gao,Bolin Ding,Zhonghai Wu,Ying Li

from arxiv, accepted by TOSEM'26

As modern microservice systems grow increasingly popular and complex-often consisting of hundreds or even thousands of fine-grained, interdependent components-they are becoming more susceptible to frequent and subtle failures. Ensuring system reliability therefore hinges on accurate and efficient failure localization. Traditional failure localization approaches based on small models lack the flexibility to adapt to diverse failure scenarios, while recent LLM-based methods suffer from two major limitations: they often rely on rigid invocation workflows that constrain the model's ability to dynamically explore optimal localization paths, and they require resource-intensive inference, making them cost-prohibitive for real-world deployment. To address these challenges, we explore the use of reinforcement fine-tuning to equip lightweight LLMs with reasoning and self-refinement capabilities, significantly improving the cost-effectiveness and adaptability of LLM-based failure localization. We begin with an empirical study to identify three key capabilities essential for accurate localization. Building on these insights, we propose a progressive multi-stage GRPO fine-tuning framework, which integrates a multi-factor failure localization grader and a recursion-of-thought actor module. The resulting model, ThinkFL, not only outperforms existing state-of-the-art LLMs and baseline methods in localization accuracy but also reduces end-to-end localization latency from minutes to seconds, demonstrating strong potential for real-world applications.

翻译：随着现代微服务系统日益普及且复杂化——通常由数百甚至数千个细粒度、相互依赖的组件构成——它们更容易出现频繁且隐蔽的故障。因此，确保系统可靠性取决于准确高效的故障定位。基于小型模型的传统故障定位方法缺乏适应多样化故障场景的灵活性，而近期基于大语言模型的方法存在两大主要局限：它们通常依赖僵化的调用工作流，限制了模型动态探索最优定位路径的能力；并且需要资源密集的推理过程，导致实际部署成本过高。为应对这些挑战，我们探索利用强化微调技术，使轻量化大语言模型具备推理与自优化能力，从而显著提升基于大语言模型的故障定位方法的成本效益与适应性。我们首先通过实证研究确定了实现精准定位所需的三项关键能力。基于这些发现，我们提出了一种渐进式多阶段GRPO微调框架，该框架整合了多因子故障定位评估器与递归思维执行器模块。由此构建的模型ThinkFL不仅在定位准确率上超越了现有最先进的大语言模型及基线方法，还将端到端定位延迟从分钟级缩短至秒级，展现出强大的实际应用潜力。

0

相关内容

故障定位

Agent+Copilot：大模型在智能运维领域的应用

Agent+Copilot：大模型在智能运维领域的应用

专知会员服务

60+阅读 · 2024年8月11日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

专知会员服务

60+阅读 · 2024年3月17日

微系统发展现状及其在无人装备领域应用和展望

微系统发展现状及其在无人装备领域应用和展望

专知会员服务

43+阅读 · 2024年2月5日

【2022新书】构建微服务：设计细粒度系统，615页pdf

【2022新书】构建微服务：设计细粒度系统，615页pdf

专知会员服务

91+阅读 · 2022年9月4日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

基于信息检索的软件缺陷定位方法综述

专知会员服务

10+阅读 · 2021年1月31日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

【Manning新书】微服务安全实战，616页pdf，Microservices Security in Action

【Manning新书】微服务安全实战，616页pdf，Microservices Security in Action

专知会员服务

46+阅读 · 2020年7月22日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

腾讯互娱刘伟 | 知识图谱在运维中的应用

腾讯互娱刘伟 | 知识图谱在运维中的应用

开放知识图谱

20+阅读 · 2018年10月10日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

齿轮早期微小故障的综合诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微小卫星编队的自主协同容错控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Understanding the Issues, Their Causes and Solutions in Microservices Systems: An Empirical Study

Understanding the Issues, Their Causes and Solutions in Microservices Systems: An Empirical Study

Arxiv

0+阅读 · 2月19日

A Microservice-Based Platform for Sustainable and Intelligent SLO Fulfilment and Service Management

Arxiv

0+阅读 · 2月13日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

ModARO: A Modular Approach to Architecture Reconstruction of Distributed Microservice Codebases

Arxiv

0+阅读 · 2月9日

Multi-View Adaptive Contrastive Learning for Information Retrieval Based Fault Localization

Arxiv

0+阅读 · 2月5日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月1日

From Monolith to Microservices: A Comparative Evaluation of Decomposition Frameworks

Arxiv

0+阅读 · 1月30日

RAFFLES: Reasoning-based Attribution of Faults for LLM Systems

Arxiv

0+阅读 · 1月30日

AnoMod: A Dataset for Anomaly Detection and Root Cause Analysis in Microservice Systems

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

14+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

Agent+Copilot：大模型在智能运维领域的应用

Agent+Copilot：大模型在智能运维领域的应用

专知会员服务

60+阅读 · 2024年8月11日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

专知会员服务

60+阅读 · 2024年3月17日

微系统发展现状及其在无人装备领域应用和展望

微系统发展现状及其在无人装备领域应用和展望

专知会员服务

43+阅读 · 2024年2月5日

【2022新书】构建微服务：设计细粒度系统，615页pdf

【2022新书】构建微服务：设计细粒度系统，615页pdf

专知会员服务

91+阅读 · 2022年9月4日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

基于信息检索的软件缺陷定位方法综述

专知会员服务

10+阅读 · 2021年1月31日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

【Manning新书】微服务安全实战，616页pdf，Microservices Security in Action

【Manning新书】微服务安全实战，616页pdf，Microservices Security in Action

专知会员服务

46+阅读 · 2020年7月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

腾讯互娱刘伟 | 知识图谱在运维中的应用

腾讯互娱刘伟 | 知识图谱在运维中的应用

开放知识图谱

20+阅读 · 2018年10月10日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

相关论文

Understanding the Issues, Their Causes and Solutions in Microservices Systems: An Empirical Study

Understanding the Issues, Their Causes and Solutions in Microservices Systems: An Empirical Study

Arxiv

0+阅读 · 2月19日

A Microservice-Based Platform for Sustainable and Intelligent SLO Fulfilment and Service Management

Arxiv

0+阅读 · 2月13日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

ModARO: A Modular Approach to Architecture Reconstruction of Distributed Microservice Codebases

Arxiv

0+阅读 · 2月9日

Multi-View Adaptive Contrastive Learning for Information Retrieval Based Fault Localization

Arxiv

0+阅读 · 2月5日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月1日

From Monolith to Microservices: A Comparative Evaluation of Decomposition Frameworks

Arxiv

0+阅读 · 1月30日

RAFFLES: Reasoning-based Attribution of Faults for LLM Systems

Arxiv

0+阅读 · 1月30日

AnoMod: A Dataset for Anomaly Detection and Root Cause Analysis in Microservice Systems

Arxiv

0+阅读 · 1月30日

相关基金

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

齿轮早期微小故障的综合诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微小卫星编队的自主协同容错控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员