In cloud-scale systems, failures are the norm. A distributed computing cluster exhibits hundreds of machine failures and thousands of disk failures; software bugs and misconfigurations are reported to be more frequent. The demand for autonomous, AI-driven reliability engineering continues to grow, as existing humanin-the-loop practices can hardly keep up with the scale of modern clouds. This paper presents STRATUS, an LLM-based multi-agent system for realizing autonomous Site Reliability Engineering (SRE) of cloud services. STRATUS consists of multiple specialized agents (e.g., for failure detection, diagnosis, mitigation), organized in a state machine to assist system-level safety reasoning and enforcement. We formalize a key safety specification of agentic SRE systems like STRATUS, termed Transactional No-Regression (TNR), which enables safe exploration and iteration. We show that TNR can effectively improve autonomous failure mitigation. STRATUS significantly outperforms state-of-the-art SRE agents in terms of success rate of failure mitigation problems in AIOpsLab and ITBench (two SRE benchmark suites), by at least 1.5 times across various models. STRATUS shows a promising path toward practical deployment of agentic systems for cloud reliability.


翻译:在云计算规模的系统中,故障是常态。分布式计算集群会经历数百次机器故障和数千次磁盘故障;软件缺陷与配置错误的报告频率更高。随着现有的人工参与模式难以跟上现代云系统的规模,对自主化、人工智能驱动的可靠性工程需求持续增长。本文提出STRATUS——一种基于大语言模型的多智能体系统,用于实现云服务的自主站点可靠性工程(SRE)。STRATUS由多个专业化智能体(例如负责故障检测、诊断、缓解)组成,并按状态机机制组织以支持系统级安全推理与保障。我们形式化定义了STRATUS这类智能SRE系统的关键安全规范——即事务性无回归(TNR),该规范可实现安全探索与迭代。研究表明,TNR能够有效提升自主故障缓解能力。在AIOpsLab与ITBench(两个SRE基准测试套件)中,STRATUS在跨多种模型的故障缓解问题成功率上,相较当前最先进的SRE智能体显著提升至少1.5倍。STRATUS为在云可靠性领域实际部署智能体系统展示了可行路径。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
《通过自适应蜂群智能实现认知物联网系统》
专知会员服务
46+阅读 · 2023年10月29日
多智能体系统带宽分配及预测云控制
专知会员服务
18+阅读 · 2023年7月9日
分布式智能计算系统前沿
中国计算机学会
19+阅读 · 2019年10月8日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员