Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models - 专知论文

会员服务 ·

0

样本 · 类别 · 预测诊断 · 语言模型 · 自动化 ·

Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models

翻译：基于少样本微调语言模型的间歇性作业故障类别预测诊断

Henri Aïdasso,Francis Bordeleau,Ali Tizghadam

In principle, Continuous Integration (CI) pipeline failures provide valuable feedback to developers on code-related errors. In practice, however, pipeline jobs often fail intermittently due to non-deterministic tests, network outages, infrastructure failures, resource exhaustion, and other reliability issues. These intermittent (flaky) job failures lead to substantial inefficiencies: wasted computational resources from repeated reruns and significant diagnosis time that distracts developers from core activities and often requires intervention from specialized teams. Prior work has proposed machine learning techniques to detect intermittent failures, but does not address the subsequent diagnosis challenge. To fill this gap, we introduce FlaXifyer, a few-shot learning approach for predicting intermittent job failure categories using pre-trained language models. FlaXifyer requires only job execution logs and achieves 84.3% Macro F1 and 92.0% Top-2 accuracy with just 12 labeled examples per category. We also propose LogSift, an interpretability technique that identifies influential log statements in under one second, reducing review effort by 74.4% while surfacing relevant failure information in 87% of cases. Evaluation on 2,458 job failures from TELUS demonstrates that FlaXifyer and LogSift enable effective automated triage, accelerate failure diagnosis, and pave the way towards the automated resolution of intermittent job failures.

翻译：原则上，持续集成（CI）流水线故障能为开发者提供有关代码错误的宝贵反馈。然而在实践中，流水线作业常因非确定性测试、网络中断、基础设施故障、资源耗尽及其他可靠性问题而间歇性失败。这些间歇性（不稳定）作业故障会导致严重的效率低下：重复运行浪费计算资源，大量诊断时间使开发者分心于核心活动之外，且往往需要专业团队的介入。先前研究已提出机器学习技术来检测间歇性故障，但未解决后续的诊断挑战。为填补这一空白，我们提出了FlaXifyer——一种利用预训练语言模型预测间歇性作业故障类别的少样本学习方法。FlaXifyer仅需作业执行日志，在每类别仅需12个标注样本的情况下即可达到84.3%的宏平均F1分数和92.0%的Top-2准确率。我们还提出了LogSift——一种可解释性技术，能在1秒内识别关键日志语句，将审查工作量减少74.4%，同时在87%的情况下提取出相关故障信息。基于TELUS平台2,458个作业故障的评估表明，FlaXifyer与LogSift能实现有效的自动化故障分诊，加速故障诊断进程，并为间歇性作业故障的自动化解决铺平道路。

0

相关内容

《大型语言模型在军事战术网络故障诊断中的应用》

《大型语言模型在军事战术网络故障诊断中的应用》

专知会员服务

25+阅读 · 2025年11月11日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ETH博士论文】标签和数据稀缺下的故障诊断，130页pdf

【ETH博士论文】标签和数据稀缺下的故障诊断，130页pdf

专知会员服务

69+阅读 · 2023年7月28日

《用于工业设计异常检测和参数余量预测的无监督概率和核回归方法》234页博士论文

《用于工业设计异常检测和参数余量预测的无监督概率和核回归方法》234页博士论文

专知会员服务

20+阅读 · 2022年5月12日

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

专知会员服务

58+阅读 · 2022年4月13日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Leveraging LLMs for Structured Information Extraction and Analysis from Cloud Incident Reports (Work In Progress Paper)

Arxiv

0+阅读 · 3月17日

A Formal Framework for Predicting Distributed System Performance under Faults (Extended Version)

Arxiv

0+阅读 · 2月24日

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

Fail-Closed Alignment for Large Language Models

Arxiv

0+阅读 · 2月19日

Partial Orders for Precise and Efficient Dynamic Deadlock Prediction

Arxiv

0+阅读 · 2月13日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA

Arxiv

0+阅读 · 2月6日

Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study

Arxiv

0+阅读 · 2月5日

Understanding and Detecting Flaky Builds in GitHub Actions

Arxiv

0+阅读 · 2月2日

Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

11+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

《大型语言模型在军事战术网络故障诊断中的应用》

《大型语言模型在军事战术网络故障诊断中的应用》

专知会员服务

25+阅读 · 2025年11月11日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ETH博士论文】标签和数据稀缺下的故障诊断，130页pdf

【ETH博士论文】标签和数据稀缺下的故障诊断，130页pdf

专知会员服务

69+阅读 · 2023年7月28日

《用于工业设计异常检测和参数余量预测的无监督概率和核回归方法》234页博士论文

《用于工业设计异常检测和参数余量预测的无监督概率和核回归方法》234页博士论文

专知会员服务

20+阅读 · 2022年5月12日

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

专知会员服务

58+阅读 · 2022年4月13日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

相关论文

Leveraging LLMs for Structured Information Extraction and Analysis from Cloud Incident Reports (Work In Progress Paper)

Arxiv

0+阅读 · 3月17日

A Formal Framework for Predicting Distributed System Performance under Faults (Extended Version)

Arxiv

0+阅读 · 2月24日

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

Fail-Closed Alignment for Large Language Models

Arxiv

0+阅读 · 2月19日

Partial Orders for Precise and Efficient Dynamic Deadlock Prediction

Arxiv

0+阅读 · 2月13日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA

Arxiv

0+阅读 · 2月6日

Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study

Arxiv

0+阅读 · 2月5日

Understanding and Detecting Flaky Builds in GitHub Actions

Arxiv

0+阅读 · 2月2日

Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models

Arxiv

0+阅读 · 1月30日

相关基金

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员