SysOM-AI: Continuous Cross-Layer Performance Diagnosis for Production AI Training

Performance diagnosis in production-scale AI training is challenging because subtle OS-level issues can trigger cascading GPU delays and network slowdowns, degrading training efficiency across thousands of GPUs. Existing profiling tools are limited to single system layers, incur prohibitive overhead (10--30%), or lack continuous deployment capabilities, resulting in manual analyses spanning days. We argue that continuous, cross-layer observability enabled by OS-level instrumentation and layered differential diagnosis is necessary to address this gap. We introduce SysOM-AI, a production observability system that continuously integrates CPU stack profiling, GPU kernel tracing, and NCCL event instrumentation via adaptive hybrid stack unwinding and eBPF-based tracing, incurring less than 0.4% overhead. Deployed at Alibaba across over 80,000 GPUs for more than one year, SysOM-AI helped diagnose 94 confirmed production issues, reducing median diagnosis time from days to approximately 10 minutes.

翻译：生产级AI训练中的性能诊断极具挑战性，因为细微的操作系统层面问题可能引发级联式GPU延迟与网络性能下降，导致数千块GPU的训练效率降低。现有剖析工具局限于单一系统层，存在难以承受的开销（10%~30%），或缺乏持续部署能力，使得诊断需耗费数天进行人工分析。我们认为，基于操作系统层级的监测手段与分层差异诊断实现的持续、跨层可观测性，是解决该问题所必需的。我们提出SysOM-AI——一套生产环境可观测性系统，通过自适应混合堆栈展开与eBPF追踪技术，持续集成CPU堆栈剖析、GPU内核追踪及NCCL事件监测，开销低于0.4%。该系统在阿里巴巴部署于超过80,000块GPU上运行逾一年，累计诊断94个经确认的生产环境问题，将中位诊断时间从数天缩短至约10分钟。

相关内容

关注 7110

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

美智库《获取生成式人工智能以提升美国防部影响力活动效能》最新报告

专知会员服务

24+阅读 · 2025年7月23日

《人工智能：生成式AI的环境与人文影响》最新47页报告

专知会员服务

18+阅读 · 2025年7月15日