Failures in clusters running large-scale AI workloads can result in decreased utilization. Because the cost of a failure in such AI workloads is high (as it requires restarting the entire job from a previous checkpoint), there are many mechanisms in place to ensure that the failures are mitigated, and the impact of a failure is minimized. However, these mechanisms have many knobs and parameters, all of which must be carefully tuned based on the system and cluster's characteristics. We built AIReSim, a discrete event simulator to evaluate the different design choices during the failure, recovery, scheduling and repair processes for a cluster running a large-scale AI workload. AIReSim allows the system designer to systematically evaluate the effects of the different knobs and parameters on the overall end-to-end reliability of the system. Further, AIReSim can be used to identify which knobs or parameters are important in order to prioritize the investment of effort in improving the system. AIReSim also allows tuning of the knobs for achieving different tradeoffs in the system, as well as to consider various ``what-if'' scenarios. We present a case study of applying AIReSim for capacity planning for large-scale clusters running AI workloads.


翻译:运行大规模人工智能工作负载的集群若发生故障,将导致利用率下降。由于此类人工智能工作负载的故障成本高昂(需要从先前检查点重新启动作业),现有系统部署了多种机制以确保缓解故障并最小化故障影响。然而,这些机制包含众多可调节参数,必须根据系统及集群特性进行精细调优。为此,我们开发了离散事件模拟器AIReSim,用于评估运行大规模人工智能工作负载的集群在故障、恢复、调度与修复过程中的不同设计选择。AIReSim使系统设计者能够系统评估各类可调参数对系统端到端整体可靠性的影响。此外,AIReSim可用于识别关键参数,从而优先投入资源以改进系统。该模拟器还支持通过参数调优实现系统不同维度的权衡,并能考察多种“假设”场景。本文通过案例研究展示了如何运用AIReSim为运行人工智能工作负载的大规模集群进行容量规划。

0
下载
关闭预览

相关内容

大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
人工智能、模块化开放系统架构和未来无人战争
专知会员服务
84+阅读 · 2024年4月4日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
智能无人机集群技术概述
无人机
46+阅读 · 2018年2月28日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
相关VIP内容
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
人工智能、模块化开放系统架构和未来无人战争
专知会员服务
84+阅读 · 2024年4月4日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员