In principle, Continuous Integration (CI) pipeline failures provide valuable feedback to developers on code-related errors. In practice, however, pipeline jobs often fail intermittently due to non-deterministic tests, network outages, infrastructure failures, resource exhaustion, and other reliability issues. These intermittent (flaky) job failures lead to substantial inefficiencies: wasted computational resources from repeated reruns and significant diagnosis time that distracts developers from core activities and often requires intervention from specialized teams. Prior work has proposed machine learning techniques to detect intermittent failures, but does not address the subsequent diagnosis challenge. To fill this gap, we introduce FlaXifyer, a few-shot learning approach for predicting intermittent job failure categories using pre-trained language models. FlaXifyer requires only job execution logs and achieves 84.3% Macro F1 and 92.0% Top-2 accuracy with just 12 labeled examples per category. We also propose LogSift, an interpretability technique that identifies influential log statements in under one second, reducing review effort by 74.4% while surfacing relevant failure information in 87% of cases. Evaluation on 2,458 job failures from TELUS demonstrates that FlaXifyer and LogSift enable effective automated triage, accelerate failure diagnosis, and pave the way towards the automated resolution of intermittent job failures.


翻译:原则上,持续集成(CI)流水线故障能为开发者提供有关代码错误的宝贵反馈。然而在实践中,流水线作业常因非确定性测试、网络中断、基础设施故障、资源耗尽及其他可靠性问题而间歇性失败。这些间歇性(不稳定)作业故障会导致严重的效率低下:重复运行浪费计算资源,大量诊断时间使开发者分心于核心活动之外,且往往需要专业团队的介入。先前研究已提出机器学习技术来检测间歇性故障,但未解决后续的诊断挑战。为填补这一空白,我们提出了FlaXifyer——一种利用预训练语言模型预测间歇性作业故障类别的少样本学习方法。FlaXifyer仅需作业执行日志,在每类别仅需12个标注样本的情况下即可达到84.3%的宏平均F1分数和92.0%的Top-2准确率。我们还提出了LogSift——一种可解释性技术,能在1秒内识别关键日志语句,将审查工作量减少74.4%,同时在87%的情况下提取出相关故障信息。基于TELUS平台2,458个作业故障的评估表明,FlaXifyer与LogSift能实现有效的自动化故障分诊,加速故障诊断进程,并为间歇性作业故障的自动化解决铺平道路。

0
下载
关闭预览

相关内容

《大型语言模型在军事战术网络故障诊断中的应用》
专知会员服务
22+阅读 · 2025年11月11日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
37+阅读 · 2025年7月14日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
69+阅读 · 2023年7月28日
专知会员服务
31+阅读 · 2020年12月21日
【PHM算法】PHM算法 | 故障诊断建模方法
产业智能官
68+阅读 · 2020年3月16日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
28+阅读 · 2019年7月22日
【智能制造】德勤:预测性维护和智能工厂
产业智能官
11+阅读 · 2018年11月27日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
【工业智能】电网故障诊断的智能技术
产业智能官
34+阅读 · 2018年5月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《大型语言模型在军事战术网络故障诊断中的应用》
专知会员服务
22+阅读 · 2025年11月11日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
37+阅读 · 2025年7月14日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
69+阅读 · 2023年7月28日
专知会员服务
31+阅读 · 2020年12月21日
相关资讯
【PHM算法】PHM算法 | 故障诊断建模方法
产业智能官
68+阅读 · 2020年3月16日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
28+阅读 · 2019年7月22日
【智能制造】德勤:预测性维护和智能工厂
产业智能官
11+阅读 · 2018年11月27日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
【工业智能】电网故障诊断的智能技术
产业智能官
34+阅读 · 2018年5月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员