Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA - 专知论文

会员服务 ·

0

故障管理 · 自动化 · 系统 · 领域知识 · 知识 ·

Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA

翻译：利用大型语言模型支持CI/CD流水线故障管理自动化：以SAP HANA为例的案例研究

Duong Bui,Stefan Grintz,Alexander Berndt,Thomas Bach

from arxiv, Accepted for publication in the proceedings of SANER 2026

CI/CD pipeline failure management is time-consuming when performed manually. Automating this process is non-trivial because the information required for effective failure management is unstructured and cannot be automatically processed by traditional programs. With their ability to process unstructured data, large language models (LLMs) have shown promising results for automated failure management by previous work. Following these studies, we evaluated whether an LLM-based system could automate failure management in a CI/CD pipeline in the context of a large industrial software project, namely SAP HANA. We evaluated the ability of the LLM-based system to identify the error location and to propose exact solutions that contain no unnecessary actions. To support the LLM in generating exact solutions, we provided it with different types of domain knowledge, including pipeline information, failure management instructions, and data from historical failures. We conducted an ablation study to determine which type of domain knowledge contributed most to solution accuracy. The results show that data from historical failures contributed the most to the system's accuracy, enabling it to produce exact solutions in 92.1% of cases in our dataset. The system correctly identified the error location with 97.4% accuracy when provided with domain knowledge, compared to 84.2% accuracy without it. In conclusion, our findings indicate that LLMs, when provided with data from historical failures, represent a promising approach for automating CI/CD pipeline failure management.

翻译：人工执行CI/CD流水线故障管理耗时费力。由于有效故障管理所需的信息是非结构化的，无法被传统程序自动处理，因此实现该过程的自动化并非易事。凭借处理非结构化数据的能力，大型语言模型（LLMs）在先前研究中已展现出自动化故障管理的良好前景。基于这些研究，我们在一个大型工业软件项目（即SAP HANA）的背景下，评估了基于LLM的系统能否自动化CI/CD流水线的故障管理。我们评估了该LLM系统在识别错误位置以及提出不含冗余操作的确切解决方案方面的能力。为支持LLM生成精确解决方案，我们为其提供了多种类型的领域知识，包括流水线信息、故障管理指南以及历史故障数据。我们通过消融实验来确定哪类领域知识对解决方案准确性贡献最大。结果表明，历史故障数据对系统准确性的提升最为显著，使其能在我们数据集中92.1%的案例中生成确切解决方案。在提供领域知识的情况下，系统正确识别错误位置的准确率达到97.4%，而未提供时仅为84.2%。综上所述，我们的研究结果表明，当配备历史故障数据时，LLMs为自动化CI/CD流水线故障管理提供了一种极具前景的途径。

0

相关内容

故障管理

《大语言模型在航空发动机系统诊断与维护中的应用研究》

《大语言模型在航空发动机系统诊断与维护中的应用研究》

专知会员服务

19+阅读 · 2025年11月20日

基于大型语言模型的人机系统综述

基于大型语言模型的人机系统综述

专知会员服务

26+阅读 · 2025年5月12日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

大型语言模型自动程序修复的系统文献综述

大型语言模型自动程序修复的系统文献综述

专知会员服务

43+阅读 · 2024年5月5日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向多主体的应急预案体系语义模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于VSC的多端直流系统故障定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Leveraging LLMs for Structured Information Extraction and Analysis from Cloud Incident Reports (Work In Progress Paper)

Arxiv

0+阅读 · 3月17日

Utilizing LLMs for Industrial Process Automation

Arxiv

0+阅读 · 2月26日

Exploring Generalizable Automated Program Repair with Large Language Models

Arxiv

0+阅读 · 2月20日

Fail-Closed Alignment for Large Language Models

Arxiv

0+阅读 · 2月19日

Claim Automation using Large Language Model

Arxiv

0+阅读 · 2月18日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

A Systematic Literature Review on Large Language Models for Automated Program Repair

Arxiv

0+阅读 · 2月10日

Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models

Arxiv

0+阅读 · 1月30日

Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

1+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

1+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

4+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

5+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

5+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

6+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

6+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

6+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

《大语言模型在航空发动机系统诊断与维护中的应用研究》

《大语言模型在航空发动机系统诊断与维护中的应用研究》

专知会员服务

19+阅读 · 2025年11月20日

基于大型语言模型的人机系统综述

基于大型语言模型的人机系统综述

专知会员服务

26+阅读 · 2025年5月12日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

大型语言模型自动程序修复的系统文献综述

大型语言模型自动程序修复的系统文献综述

专知会员服务

43+阅读 · 2024年5月5日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【工业智能】电网故障诊断的智能技术

【工业智能】电网故障诊断的智能技术

产业智能官

34+阅读 · 2018年5月28日

相关论文

Leveraging LLMs for Structured Information Extraction and Analysis from Cloud Incident Reports (Work In Progress Paper)

Arxiv

0+阅读 · 3月17日

Utilizing LLMs for Industrial Process Automation

Arxiv

0+阅读 · 2月26日

Exploring Generalizable Automated Program Repair with Large Language Models

Arxiv

0+阅读 · 2月20日

Fail-Closed Alignment for Large Language Models

Arxiv

0+阅读 · 2月19日

Claim Automation using Large Language Model

Arxiv

0+阅读 · 2月18日

Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning

Arxiv

0+阅读 · 2月12日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

A Systematic Literature Review on Large Language Models for Automated Program Repair

Arxiv

0+阅读 · 2月10日

Procedural Knowledge Extraction from Industrial Troubleshooting Guides Using Vision Language Models

Arxiv

0+阅读 · 1月30日

Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models

Arxiv

0+阅读 · 1月29日

相关基金

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向多主体的应急预案体系语义模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于VSC的多端直流系统故障定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员