Rank-Aware Resource Scheduling for Tightly-Coupled MPI Workloads on Kubernetes - 专知论文

会员服务 ·

0

Rank-Aware Resource Scheduling for Tightly-Coupled MPI Workloads on Kubernetes

翻译：感知等级资源调度：面向Kubernetes上紧耦合MPI工作负载

from arxiv, 22 pages, 10 figures, 7 tables. Submitted to Journal of Cloud Computing

Fully provisioned Message Passing Interface (MPI) parallelism achieves near-optimal wall-clock time for Computational Fluid Dynamics (CFD) solvers. This work addresses a complementary question for shared, cloud-managed clusters: can fine-grained CPU provisioning reduce resource reservation of low-load subdomains, improving cluster packing efficiency without unacceptably degrading performance? We propose rank-aware resource scheduling on Kubernetes, mapping each MPI rank to a pod whose CPU request is proportional to its subdomain cell count. We also demonstrate In-Place Pod Vertical Scaling (Kubernetes v1.35 GA) for mid-simulation CPU adjustment without pod restart. Three findings emerge. First, hard CPU limits via the Linux CFS bandwidth controller cause 78x slowdown through cascading stalls at MPI_Allreduce barriers; requests-only allocation eliminates throttling entirely. Second, on non-burstable c5.xlarge instances, concentric decomposition with equal CPU is 19% faster than the Scotch baseline, while adding proportional CPU yields a further 3% improvement. Third, at 16 MPI ranks on 101K-cell meshes, proportional allocation is 20% faster than equal allocation while reducing sparse-subdomain provisioned CPU by 82%, freeing 6.5 vCPU of scheduling headroom. Experiments are conducted on AWS EC2 c5.xlarge clusters (4-16 ranks) running k3s v1.35. All scripts and data are released as open source.

翻译：全面配置的消息传递接口（MPI）并行计算可实现计算流体动力学（CFD）求解器接近最优的墙钟时间。本文针对共享式云管理集群提出一个互补性问题：能否通过细粒度CPU资源分配降低低负载子域的预留资源，在不显著影响性能的前提下提升集群打包效率？我们提出基于Kubernetes的感知等级资源调度方案，将每个MPI进程映射至一个Pod，其CPU请求量与对应子域网格单元数成正比。同时证明无需重启Pod即可实现仿真中CPU资源调整的原地Pod垂直伸缩（Kubernetes v1.35 GA）。研究得出三项发现：第一，通过Linux CFS带宽控制器设置硬性CPU限制会导致MPI_Allreduce屏障处级联停滞，造成78倍性能下降；而仅采用请求量分配模式可完全消除限流。第二，在不可突发的c5.xlarge实例上，等量CPU配置的同心分解法比Scotch基准方案快19%，而增加比例化CPU分配可再带来3%性能提升。第三，在16个MPI进程处理101K网格单元时，比例化分配较均等分配快20%，同时将稀疏子域预留CPU减少82%，释放6.5 vCPU调度余量。实验基于AWS EC2 c5.xlarge集群（4-16进程）运行k3s v1.35完成，所有脚本与数据均已开源发布。

0

相关内容

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

37+阅读 · 5月21日

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

专知会员服务

41+阅读 · 2023年11月15日

战场物联网 |《IoBT中的上下文感知协作神经符号推理》（译文）美陆军等

战场物联网 |《IoBT中的上下文感知协作神经符号推理》（译文）美陆军等

专知会员服务

53+阅读 · 2023年2月17日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【IJCAI2021】CUC：云计算中基于不确定约束的预测作业调度算法

【IJCAI2021】CUC：云计算中基于不确定约束的预测作业调度算法

专知会员服务

15+阅读 · 2021年8月26日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

视觉底层任务优秀开源工作：MMEditing 库使用方法

视觉底层任务优秀开源工作：MMEditing 库使用方法

极市平台

12+阅读 · 2022年3月9日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

面向估计性能优化的网络化控制系统传感器调度

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月29日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月24日

Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity

Arxiv

0+阅读 · 4月22日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月4日

Hybrid Quantum-HPC Middleware Systems for Adaptive Resource, Workload and Task Management

Arxiv

0+阅读 · 4月3日

Reclaiming Idle CPU Cycles on Kubernetes: Sparse-Domain Multiplexing for Concurrent MPI-CFD Simulations

Arxiv

0+阅读 · 4月1日

Serving Hybrid LLM Loads with SLO Guarantees Using CPU-GPU Attention Piggybacking

Arxiv

0+阅读 · 3月17日

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 3月5日

Characterizing Production GPU Workloads using System-wide Telemetry Data

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

专知会员服务

6+阅读 · 今天11:19

2025年全球二十起重大无人机作战事件

2025年全球二十起重大无人机作战事件

专知会员服务

2+阅读 · 今天10:39

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

3+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

5+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

8+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

14+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

8+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

7+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

9+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

相关VIP内容

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

37+阅读 · 5月21日

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

《实现网络防御态势感知能力的决策支持要素和使能技术》2023最新博士论文

专知会员服务

41+阅读 · 2023年11月15日

战场物联网 |《IoBT中的上下文感知协作神经符号推理》（译文）美陆军等

战场物联网 |《IoBT中的上下文感知协作神经符号推理》（译文）美陆军等

专知会员服务

53+阅读 · 2023年2月17日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【IJCAI2021】CUC：云计算中基于不确定约束的预测作业调度算法

【IJCAI2021】CUC：云计算中基于不确定约束的预测作业调度算法

专知会员服务

15+阅读 · 2021年8月26日

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

【2020论文翻译】基于SARSA的深度强化学习的移动边缘计算任务分流和资源分配

专知会员服务

21+阅读 · 2020年5月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

2025年全球二十起重大无人机作战事件

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

现代战争的隐蔽系统：伊朗战争十大启示

相关资讯

视觉底层任务优秀开源工作：MMEditing 库使用方法

视觉底层任务优秀开源工作：MMEditing 库使用方法

极市平台

12+阅读 · 2022年3月9日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

相关论文

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月29日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月24日

Predictive Autoscaling for Node.js on Kubernetes: Lower Latency, Right-Sized Capacity

Arxiv

0+阅读 · 4月22日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月4日

Hybrid Quantum-HPC Middleware Systems for Adaptive Resource, Workload and Task Management

Arxiv

0+阅读 · 4月3日

Reclaiming Idle CPU Cycles on Kubernetes: Sparse-Domain Multiplexing for Concurrent MPI-CFD Simulations

Arxiv

0+阅读 · 4月1日

Serving Hybrid LLM Loads with SLO Guarantees Using CPU-GPU Attention Piggybacking

Arxiv

0+阅读 · 3月17日

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 3月5日

Characterizing Production GPU Workloads using System-wide Telemetry Data

Arxiv

0+阅读 · 2月24日

相关基金

面向估计性能优化的网络化控制系统传感器调度

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员