AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems - 专知论文

会员服务 ·

0

系统 · 生命周期管理 · 大规模云 · 噪声 · 用户体验 ·

AlertGuardian: Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems

翻译：AlertGuardian：面向大规模云系统的智能告警生命周期管理

Guangba Yu,Genting Mai,Rui Wang,Ruipeng Li,Pengfei Chen,Long Pan,Ruijie Xu

from arxiv, Accepted by ASE 2025

Alerts are critical for detecting anomalies in large-scale cloud systems, ensuring reliability and user experience. However, current systems generate overwhelming volumes of alerts, degrading operational efficiency due to ineffective alert life-cycle management. This paper details the efforts of Company-X to optimize alert life-cycle management, addressing alert fatigue in cloud systems. We propose AlertGuardian, a framework collaborating large language models (LLMs) and lightweight graph models to optimize the alert life-cycle through three phases: Alert Denoise uses graph learning model with virtual noise to filter noise, Alert Summary employs Retrieval Augmented Generation (RAG) with LLMs to create actionable summary, and Alert Rule Refinement leverages multi-agent iterative feedbacks to improve alert rule quality. Evaluated on four real-world datasets from Company-X's services, AlertGuardian significantly mitigates alert fatigue (94.8\% alert reduction ratios) and accelerates fault diagnosis (90.5\% diagnosis accuracy). Moreover, AlertGuardian improves 1,174 alert rules, with 375 accepted by SREs (32% acceptance rate). Finally, we share success stories and lessons learned about alert life-cycle management after the deployment of AlertGuardian in Company-X.

翻译：告警对于大规模云系统中的异常检测至关重要，能够确保系统可靠性与用户体验。然而，当前系统产生海量告警，由于告警生命周期管理效率低下，导致运维效率下降。本文详细阐述了X公司为优化告警生命周期管理、应对云系统告警疲劳所做的努力。我们提出了AlertGuardian框架，该框架协同大型语言模型（LLMs）与轻量级图模型，通过三个阶段优化告警生命周期：告警去噪采用带虚拟噪声的图学习模型过滤噪声，告警摘要利用基于检索增强生成（RAG）的LLMs生成可操作的摘要，告警规则优化则借助多智能体迭代反馈提升告警规则质量。在X公司服务的四个真实数据集上的评估表明，AlertGuardian显著缓解了告警疲劳（告警减少率达94.8%），并加速了故障诊断（诊断准确率达90.5%）。此外，AlertGuardian优化了1,174条告警规则，其中375条被站点可靠性工程师（SREs）采纳（采纳率为32%）。最后，我们分享了AlertGuardian在X公司部署后，关于告警生命周期管理的成功经验与教训。

0

相关内容

《面向军事网络的下一代云事件响应》

《面向军事网络的下一代云事件响应》

专知会员服务

16+阅读 · 2025年11月2日

《用于边缘云异常检测的机器学习》博士论文

《用于边缘云异常检测的机器学习》博士论文

专知会员服务

24+阅读 · 2025年1月20日

利用云技术进行部队部署、战斗并取得胜利

利用云技术进行部队部署、战斗并取得胜利

专知会员服务

24+阅读 · 2024年12月6日

《边缘云异常检测的机器学习》最新博士论文

《边缘云异常检测的机器学习》最新博士论文

专知会员服务

27+阅读 · 2024年8月8日

腾讯等发布《2023产业互联网安全十大趋势》报告，26页pdf

腾讯等发布《2023产业互联网安全十大趋势》报告，26页pdf

专知会员服务

31+阅读 · 2023年3月22日

《攻击型有弹性的多智能体系统DDDAS异常检测和响应》2022最新42页技术总结报告，美国空军研究实验室

《攻击型有弹性的多智能体系统DDDAS异常检测和响应》2022最新42页技术总结报告，美国空军研究实验室

专知会员服务

33+阅读 · 2022年9月27日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

专知会员服务

58+阅读 · 2022年4月13日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

专知

33+阅读 · 2022年7月13日

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

物联网智库

31+阅读 · 2019年10月14日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

AlertBERT: A noise-robust alert grouping framework for simultaneous cyber attacks

Arxiv

0+阅读 · 2月6日

GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video

Arxiv

0+阅读 · 2月3日

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Arxiv

0+阅读 · 2月2日

Are Security Cues Static? Rethinking Warning and Trust Indicators for Life Transitions

Arxiv

0+阅读 · 2月2日

Trackly: A Unified SaaS Platform for User Behavior Analytics and Real Time Rule Based Anomaly Detection

Arxiv

0+阅读 · 1月30日

FusionLog: Cross-System Log-based Anomaly Detection via Fusion of General and Proprietary Knowledge

Arxiv

0+阅读 · 1月28日

RegGuard: AI-Powered Retrieval-Enhanced Assistant for Pharmaceutical Regulatory Compliance

Arxiv

0+阅读 · 1月25日

VitalDiagnosis: AI-Driven Ecosystem for 24/7 Vital Monitoring and Chronic Disease Management

Arxiv

0+阅读 · 1月22日

AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior

Arxiv

2+阅读 · 1月15日

VIP会员

文章信息

相关主题

生命周期管理

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

1+阅读 · 今天13:56

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 今天13:54

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

3+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

9+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

6+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

7+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

《面向军事网络的下一代云事件响应》

《面向军事网络的下一代云事件响应》

专知会员服务

16+阅读 · 2025年11月2日

《用于边缘云异常检测的机器学习》博士论文

《用于边缘云异常检测的机器学习》博士论文

专知会员服务

24+阅读 · 2025年1月20日

利用云技术进行部队部署、战斗并取得胜利

利用云技术进行部队部署、战斗并取得胜利

专知会员服务

24+阅读 · 2024年12月6日

《边缘云异常检测的机器学习》最新博士论文

《边缘云异常检测的机器学习》最新博士论文

专知会员服务

27+阅读 · 2024年8月8日

腾讯等发布《2023产业互联网安全十大趋势》报告，26页pdf

腾讯等发布《2023产业互联网安全十大趋势》报告，26页pdf

专知会员服务

31+阅读 · 2023年3月22日

《攻击型有弹性的多智能体系统DDDAS异常检测和响应》2022最新42页技术总结报告，美国空军研究实验室

《攻击型有弹性的多智能体系统DDDAS异常检测和响应》2022最新42页技术总结报告，美国空军研究实验室

专知会员服务

33+阅读 · 2022年9月27日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

【AI+军事】附论文+PPT《利用机器学习技术对海军资产进行预测性维护》，西班牙海军等

专知会员服务

58+阅读 · 2022年4月13日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

推荐！【中文版】美国海军研究实验室《将机器学习异常检测技术应用于美国海军空间系统运行》43页技术报告

专知

33+阅读 · 2022年7月13日

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

物联网智库

31+阅读 · 2019年10月14日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

【智能制造】德勤：预测性维护和智能工厂

【智能制造】德勤：预测性维护和智能工厂

产业智能官

11+阅读 · 2018年11月27日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

相关论文

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

AlertBERT: A noise-robust alert grouping framework for simultaneous cyber attacks

Arxiv

0+阅读 · 2月6日

GuardReasoner-Omni: A Reasoning-based Multi-modal Guardrail for Text, Image, and Video

Arxiv

0+阅读 · 2月3日

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Arxiv

0+阅读 · 2月2日

Are Security Cues Static? Rethinking Warning and Trust Indicators for Life Transitions

Arxiv

0+阅读 · 2月2日

Trackly: A Unified SaaS Platform for User Behavior Analytics and Real Time Rule Based Anomaly Detection

Arxiv

0+阅读 · 1月30日

FusionLog: Cross-System Log-based Anomaly Detection via Fusion of General and Proprietary Knowledge

Arxiv

0+阅读 · 1月28日

RegGuard: AI-Powered Retrieval-Enhanced Assistant for Pharmaceutical Regulatory Compliance

Arxiv

0+阅读 · 1月25日

VitalDiagnosis: AI-Driven Ecosystem for 24/7 Vital Monitoring and Chronic Disease Management

Arxiv

0+阅读 · 1月22日

AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior

Arxiv

2+阅读 · 1月15日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

多变化环境监测系统的系统诊断结构与高效诊断算法分析与研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员