Large language models are increasingly being used to support network operations (NetOps) and artificial intelligence for IT operations (AIOps), including incident investigation, root-cause analysis, configuration synthesis, and limited self-healing. In both NetOps and AIOps, this shift is changing how tasks are managed. Agent-based operations work as workflows, from gathering evidence to taking action, following permissions, policies, and checks, and providing rollback options when necessary. This is crucial because operational decisions can have instant impacts. To make the argument concrete, we organise the relevant literature around the hierarchy of autonomy, tool scope, evidence traces, and assurance contracts. These contracts define what an agent may observe, propose, and execute. They also define the checks that must pass before any action is allowed. A consistent pattern appears across work on telemetry query recommendation, diagnosis, root-cause analysis, configuration synthesis, change planning, and limited self-healing. Operational reliability does not come chiefly from the model itself. It depends on the machinery around the model. We also argue that evaluation should go beyond static question answering. Agentic NetOps and AIOps systems require workflow-centred evaluation, including trace quality, bounded tool use, safe proposal generation, replay in sandboxed environments, and canary trials with rollback-aware scoring. Without these measures, a system may appear robust yet remain too fragile. Finally, we examine security, privacy, and governance risks that become acute when agents sit close to operational control surfaces. Taken together, the survey concludes that progress in intelligent NetOps and AIOps will depend on treating autonomy as a constrained operational control problem, whose outputs must be reliable, auditable, and securely deployable.


翻译:大语言模型正日益广泛地应用于网络运营(NetOps)和面向IT运维的人工智能(AIOps),涵盖事件调查、根因分析、配置合成以及有限的自我修复。在NetOps和AIOps领域,这一转变正在改变任务的管理方式。基于智能体的运维以工作流形式运作,从证据收集到行动执行,遵循权限、策略和检查机制,并在必要时提供回滚选项。这一点至关重要,因为运营决策可能产生即时影响。为具体阐述这一论点,我们围绕自主层级、工具范围、证据追踪和保证契约,梳理了相关文献。这些契约界定了智能体可以观察、提议和执行的内容,同时也规定了任何行动执行前必须通过的各项检查。在遥测查询推荐、诊断、根因分析、配置合成、变更规划以及有限自我修复等工作中,呈现出一种一致的模式。运营可靠性主要并非来自模型本身,而是依赖于模型周边的配套机制。我们还认为,评估不应局限于静态问答。自主NetOps和AIOps系统需要以工作流为中心的评估,包括追踪质量、受限的工具使用、安全的方案生成、沙盒环境中的回放,以及具备回滚感知评分的金丝雀测试。缺乏这些措施,系统可能看似稳健,实则过于脆弱。最后,我们审视了当智能体靠近运营控制面时变得尤为突出的安全、隐私和治理风险。综合来看,本综述得出结论:智能NetOps和AIOps的进展,将取决于将自主性视为一个受约束的运营控制问题,其输出必须可靠、可审计且可安全部署。

0
下载
关闭预览

相关内容

关乎渠道,用户,数据,商务和活动的各种思考和求索。 运筹于帷幄之中,决胜于千里之外。学习运营: 运营、产品运营(互联网运营)
大语言模型时代的AIOps综述
专知会员服务
28+阅读 · 2025年7月20日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 57分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
大语言模型时代的AIOps综述
专知会员服务
28+阅读 · 2025年7月20日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
相关资讯
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员