CARMA: Collocation-Aware Resource Manager - 专知论文

会员服务 ·

0

协同 · 协同定位 · GPU · 资源管理 · 负载 ·

CARMA: Collocation-Aware Resource Manager

翻译：CARMA：协同定位感知资源管理器

Ehsan Yousefzadeh-Asl-Miandoab,Florina M. Ciorba,Pınar Tözün

GPUs running deep learning (DL) workloads are frequently underutilized. Collocating multiple DL training tasks on the same GPU can improve utilization but introduces two key risks: (1) out-of-memory (OOM) crashes for newly scheduled tasks, and (2) severe performance interference among co-running tasks, which can negate any throughput gains. These issues reduce system robustness, quality of service, and energy efficiency. We present CARMA, a task-level, collocation-aware resource manager for the server-scale. CARMA addresses collocation challenges via (1) fine-grained monitoring and bookkeeping of GPUs and a collocation risk analysis that filters out the high-risk GPUs; (2) task placement policies that cap GPU utilization to limit OOMs and interference; (3) integration of GPU memory need estimators for DL tasks to minimize OOMs during collocation; and (4) a lightweight recovery method that relaunches jobs crashed due to OOMs. Our evaluation on a DL training workload derived from real-world traces shows that CARMA uses GPUs more efficiently by making more informed collocation decisions: for the best-performing collocation policy, CARMA increases GPU streaming multiprocessor (SM) utilization by 54%, the parallelism achieved per SM by 61%, and memory use by 62%. This results in a ~35% and ~15% reduction in the end-to-end execution time (makespan) and GPU energy consumption, respectively, for this workload.

翻译：运行深度学习（DL）工作负载的GPU经常处于未充分利用状态。在同一GPU上协同定位多个DL训练任务可以提高利用率，但会引入两个关键风险：（1）新调度任务出现内存不足（OOM）崩溃；（2）并行运行任务间产生严重的性能干扰，这可能抵消所有吞吐量收益。这些问题降低了系统的鲁棒性、服务质量和能效。我们提出CARMA，一种面向服务器规模的任务级协同定位感知资源管理器。CARMA通过以下方式应对协同定位挑战：（1）对GPU进行细粒度监控与簿记，并通过协同定位风险分析过滤高风险GPU；（2）采用任务放置策略限制GPU利用率以控制OOM和干扰；（3）集成DL任务的GPU内存需求估算器以最小化协同定位期间的OOM；（4）采用轻量级恢复方法重启因OOM崩溃的任务。基于真实场景追踪数据构建的DL训练工作负载评估表明，CARMA通过更明智的协同定位决策更高效地利用GPU：在最佳协同定位策略下，CARMA将GPU流式多处理器（SM）利用率提升54%，单SM实现的并行度提高61%，内存使用率增加62%。这使得该工作负载的端到端执行时间（完工时间）和GPU能耗分别降低约35%和约15%。

0

相关内容

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

专知会员服务

37+阅读 · 2024年12月4日

【斯坦福博士论文】高效鲁棒的深度学习在医学影像和自然语言处理中的应用，112页pdf

【斯坦福博士论文】高效鲁棒的深度学习在医学影像和自然语言处理中的应用，112页pdf

专知会员服务

22+阅读 · 2024年1月27日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

专知会员服务

111+阅读 · 2022年4月2日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

2080Ti后，深度学习该选什么显卡？（补充RTX2070测评）

2080Ti后，深度学习该选什么显卡？（补充RTX2070测评）

论智

94+阅读 · 2018年11月14日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂RFID数据采集任务的分布式协同方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 4月27日

LEO: Tracing GPU Stall Root Causes via Cross-Vendor Backward Slicing

Arxiv

0+阅读 · 4月21日

GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion

Arxiv

0+阅读 · 4月20日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

GTaP: A GPU-Resident Fork-Join Task-Parallel Runtime with a Pragma-Based Interface

Arxiv

0+阅读 · 4月7日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 3月7日

Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent

Arxiv

0+阅读 · 2月26日

CARAT: Client-Side Adaptive RPC and Cache Co-Tuning for Parallel File Systems

Arxiv

0+阅读 · 2月25日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

当AI代理处理机密：面向代理式AI的机密计算综述

当AI代理处理机密：面向代理式AI的机密计算综述

专知会员服务

2+阅读 · 5月9日

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

专知会员服务

3+阅读 · 5月9日

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

专知会员服务

2+阅读 · 5月9日

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

11+阅读 · 5月9日

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

15+阅读 · 5月9日

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

14+阅读 · 5月9日

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

8+阅读 · 5月9日

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

27+阅读 · 5月9日

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

10+阅读 · 5月9日

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

6+阅读 · 5月9日

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

4+阅读 · 5月9日

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

12+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

8+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

7+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

6+阅读 · 5月8日

相关VIP内容

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

专知会员服务

37+阅读 · 2024年12月4日

【斯坦福博士论文】高效鲁棒的深度学习在医学影像和自然语言处理中的应用，112页pdf

【斯坦福博士论文】高效鲁棒的深度学习在医学影像和自然语言处理中的应用，112页pdf

专知会员服务

22+阅读 · 2024年1月27日

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

【干货书】深度学习系统: 大规模生产的算法、编译器和处理器，267页pdf

专知会员服务

91+阅读 · 2022年6月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

专知会员服务

111+阅读 · 2022年4月2日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

美国军方使用的10种反无人机武器（2026年更新）

当AI代理处理机密：面向代理式AI的机密计算综述

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

2080Ti后，深度学习该选什么显卡？（补充RTX2070测评）

2080Ti后，深度学习该选什么显卡？（补充RTX2070测评）

论智

94+阅读 · 2018年11月14日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

相关论文

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 4月27日

LEO: Tracing GPU Stall Root Causes via Cross-Vendor Backward Slicing

Arxiv

0+阅读 · 4月21日

GPUOS: A GPU Operating System Primitive for Transparent Operation Fusion

Arxiv

0+阅读 · 4月20日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

GTaP: A GPU-Resident Fork-Join Task-Parallel Runtime with a Pragma-Based Interface

Arxiv

0+阅读 · 4月7日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 3月7日

Imitation Game: Reproducing Deep Learning Bugs Leveraging an Intelligent Agent

Arxiv

0+阅读 · 2月26日

CARAT: Client-Side Adaptive RPC and Cache Co-Tuning for Parallel File Systems

Arxiv

0+阅读 · 2月25日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 2月19日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂RFID数据采集任务的分布式协同方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员