AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling - 专知论文

会员服务 ·

0

系统 · 负载 · 离散 · 事件 · 可靠性建模 ·

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

翻译：AIReSim：面向大规模人工智能集群可靠性建模的离散事件模拟器

Karthik Pattabiraman,Mihir Patel,Fred Lin

from arxiv, under submission; submitted version

Failures in clusters running large-scale AI workloads can result in decreased utilization. Because the cost of a failure in such AI workloads is high (as it requires restarting the entire job from a previous checkpoint), there are many mechanisms in place to ensure that the failures are mitigated, and the impact of a failure is minimized. However, these mechanisms have many knobs and parameters, all of which must be carefully tuned based on the system and cluster's characteristics. We built AIReSim, a discrete event simulator to evaluate the different design choices during the failure, recovery, scheduling and repair processes for a cluster running a large-scale AI workload. AIReSim allows the system designer to systematically evaluate the effects of the different knobs and parameters on the overall end-to-end reliability of the system. Further, AIReSim can be used to identify which knobs or parameters are important in order to prioritize the investment of effort in improving the system. AIReSim also allows tuning of the knobs for achieving different tradeoffs in the system, as well as to consider various ``what-if'' scenarios. We present a case study of applying AIReSim for capacity planning for large-scale clusters running AI workloads.

翻译：运行大规模人工智能工作负载的集群若发生故障，将导致利用率下降。由于此类人工智能工作负载的故障成本高昂（需要从先前检查点重新启动作业），现有系统部署了多种机制以确保缓解故障并最小化故障影响。然而，这些机制包含众多可调节参数，必须根据系统及集群特性进行精细调优。为此，我们开发了离散事件模拟器AIReSim，用于评估运行大规模人工智能工作负载的集群在故障、恢复、调度与修复过程中的不同设计选择。AIReSim使系统设计者能够系统评估各类可调参数对系统端到端整体可靠性的影响。此外，AIReSim可用于识别关键参数，从而优先投入资源以改进系统。该模拟器还支持通过参数调优实现系统不同维度的权衡，并能考察多种“假设”场景。本文通过案例研究展示了如何运用AIReSim为运行人工智能工作负载的大规模集群进行容量规划。

0

相关内容

《迈向人工智能赋能网络威胁的风险阈值：利用贝叶斯网络增强不确定性下的决策能力》最新60页报告

《迈向人工智能赋能网络威胁的风险阈值：利用贝叶斯网络增强不确定性下的决策能力》最新60页报告

专知会员服务

21+阅读 · 3月2日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

人工智能、模块化开放系统架构和未来无人战争

人工智能、模块化开放系统架构和未来无人战争

专知会员服务

89+阅读 · 2024年4月4日

博士论文：领导者-追随者多智能体系统的瞬态控制与时空逻辑任务的应用

博士论文：领导者-追随者多智能体系统的瞬态控制与时空逻辑任务的应用

专知会员服务

49+阅读 · 2023年10月26日

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

专知会员服务

44+阅读 · 2023年4月15日

【集群机器人】《考虑对手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑对手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知会员服务

253+阅读 · 2022年11月21日

《人工智能作战决策辅助中的安全性》美国海军2022最新27页slides

《人工智能作战决策辅助中的安全性》美国海军2022最新27页slides

专知会员服务

107+阅读 · 2022年11月3日

《人工智能和机器学习辅助决策在空战中的未来选择》【第十届迪拜国际空军首长会议】

《人工智能和机器学习辅助决策在空战中的未来选择》【第十届迪拜国际空军首长会议】

专知会员服务

110+阅读 · 2022年5月8日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

86+阅读 · 2022年8月29日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能无人机集群技术概述

智能无人机集群技术概述

无人机

47+阅读 · 2018年2月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

家庭智能用电任务调度优化及其对电网负荷影响分析模型

国家自然科学基金

1+阅读 · 2015年12月31日

运用无人机（UAV）技术搜集工程现场险兆事件减少事故风险

国家自然科学基金

6+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模突发事件的可持续应急资源调度问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群智能诱导涌现方法在航空集群C2中的应用研究

国家自然科学基金

10+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

Arxiv

0+阅读 · 5月4日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 4月17日

Distributed Split Computing Using Diffusive Metrics for UAV Swarms

Arxiv

0+阅读 · 4月8日

Intelligent Cloud Orchestration: A Hybrid Predictive and Heuristic Framework for Cost Optimization

Arxiv

0+阅读 · 4月2日

SwarmCoDe: A Scalable Co-Design Framework for Heterogeneous Robot Swarms via Dynamic Speciation

Arxiv

0+阅读 · 3月27日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 3月21日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

A Computationally Efficient Learning of Artificial Intelligence System Reliability Considering Error Propagation

Arxiv

0+阅读 · 3月18日

HyperParallel: A Supernode-Affinity AI Framework

Arxiv

0+阅读 · 3月4日

VIP会员

文章信息

相关主题

可靠性建模

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

14+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

《迈向人工智能赋能网络威胁的风险阈值：利用贝叶斯网络增强不确定性下的决策能力》最新60页报告

《迈向人工智能赋能网络威胁的风险阈值：利用贝叶斯网络增强不确定性下的决策能力》最新60页报告

专知会员服务

21+阅读 · 3月2日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

人工智能、模块化开放系统架构和未来无人战争

人工智能、模块化开放系统架构和未来无人战争

专知会员服务

89+阅读 · 2024年4月4日

博士论文：领导者-追随者多智能体系统的瞬态控制与时空逻辑任务的应用

博士论文：领导者-追随者多智能体系统的瞬态控制与时空逻辑任务的应用

专知会员服务

49+阅读 · 2023年10月26日

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

博士论文《应用于时空逻辑任务的领导者-追随者多智能体系统的瞬态控制》

专知会员服务

44+阅读 · 2023年4月15日

【集群机器人】《考虑对手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑对手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知会员服务

253+阅读 · 2022年11月21日

《人工智能作战决策辅助中的安全性》美国海军2022最新27页slides

《人工智能作战决策辅助中的安全性》美国海军2022最新27页slides

专知会员服务

107+阅读 · 2022年11月3日

《人工智能和机器学习辅助决策在空战中的未来选择》【第十届迪拜国际空军首长会议】

《人工智能和机器学习辅助决策在空战中的未来选择》【第十届迪拜国际空军首长会议】

专知会员服务

110+阅读 · 2022年5月8日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

86+阅读 · 2022年8月29日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能无人机集群技术概述

智能无人机集群技术概述

无人机

47+阅读 · 2018年2月28日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

Arxiv

0+阅读 · 5月4日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 4月17日

Distributed Split Computing Using Diffusive Metrics for UAV Swarms

Arxiv

0+阅读 · 4月8日

Intelligent Cloud Orchestration: A Hybrid Predictive and Heuristic Framework for Cost Optimization

Arxiv

0+阅读 · 4月2日

SwarmCoDe: A Scalable Co-Design Framework for Heterogeneous Robot Swarms via Dynamic Speciation

Arxiv

0+阅读 · 3月27日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 3月21日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

A Computationally Efficient Learning of Artificial Intelligence System Reliability Considering Error Propagation

Arxiv

0+阅读 · 3月18日

HyperParallel: A Supernode-Affinity AI Framework

Arxiv

0+阅读 · 3月4日

相关基金

家庭智能用电任务调度优化及其对电网负荷影响分析模型

国家自然科学基金

1+阅读 · 2015年12月31日

运用无人机（UAV）技术搜集工程现场险兆事件减少事故风险

国家自然科学基金

6+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模突发事件的可持续应急资源调度问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群智能诱导涌现方法在航空集群C2中的应用研究

国家自然科学基金

10+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员