Towards an Adaptive Runtime System for Cloud-Native HPC - 专知论文

会员服务 ·

0

系统 · 云环境 · 异构 · 中央处理器 (CPU) · GPU ·

Towards an Adaptive Runtime System for Cloud-Native HPC

翻译：面向云原生高性能计算的自适应运行时系统

Aditya Bhosale,Advait Tahilyani,Laxmikant Kale,Sara Kokkila-Schumacher

The ongoing convergence of HPC and cloud computing presents a fundamental challenge: HPC applications, designed for static and homogeneous supercomputers, are ill-suited for the dynamic, heterogeneous, and volatile nature of the cloud. Traditional parallel programming models like MPI struggle to leverage key cloud advantages, such as resource elasticity and low-cost spot instances, while also failing to address challenges like performance variability and processor heterogeneity. This paper demonstrates how the asynchronous, message-driven paradigm of the Charm++ parallel runtime system can bridge this gap. We present a set of tools and strategies that enable HPC applications to run efficiently and resiliently on dynamic cloud infrastructure across both CPU and GPU resources. Our work makes two key contributions. First, we demonstrate that rate-aware load balancing in Charm++ improves performance for applications running on heterogeneous CPU and GPU instances on the cloud. We further demonstrate how core Charm++ principles mitigate performance degradation from common cloud challenges like network contention and processor performance variability, which are exacerbated by the tightly coupled, globally synchronized nature of many science and engineering applications. Second, we extend an existing resource management framework to support GPU and CPU spot instances with minimal interruption overhead. Together, these contributions provide a robust framework for adapting HPC applications to achieve efficient, resilient, and cost-effective performance on the cloud.

翻译：高性能计算与云计算的持续融合提出了一个根本性挑战：为静态同构超级计算机设计的HPC应用程序，难以适应云环境动态、异构且不稳定的特性。传统的并行编程模型（如MPI）难以利用云的关键优势（如资源弹性和低成本竞价实例），同时也无法应对性能波动和处理器异构性等挑战。本文论证了Charm++并行运行时系统的异步消息驱动范式如何弥合这一鸿沟。我们提出了一套工具与策略，使HPC应用程序能够在动态云基础设施上跨CPU和GPU资源高效且鲁棒地运行。本研究的核心贡献包括两方面：首先，我们证明了Charm++中基于速率的负载均衡技术可提升应用程序在云中异构CPU与GPU实例上的运行性能。进一步地，我们展示了Charm++的核心设计原则如何缓解网络争用和处理器性能波动等常见云环境挑战导致的性能下降——这些问题因许多科学与工程应用紧密耦合、全局同步的特性而加剧。其次，我们扩展了现有资源管理框架，使其能以最小中断开销支持GPU和CPU竞价实例。这些贡献共同构成了一个稳健的框架，助力HPC应用程序在云环境中实现高效、鲁棒且经济高效的性能表现。

0

相关内容

《云边计算中加速器虚拟化技术研究》187页

《云边计算中加速器虚拟化技术研究》187页

专知会员服务

30+阅读 · 2025年4月10日

【普林斯顿博士论文】驾驭现代芯片设计中的异构性与可扩展性

【普林斯顿博士论文】驾驭现代芯片设计中的异构性与可扩展性

专知会员服务

20+阅读 · 2024年8月13日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

37+阅读 · 2024年5月24日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

《云原生标准体系白皮书（2023）》发布，52页pdf

《云原生标准体系白皮书（2023）》发布，52页pdf

专知会员服务

54+阅读 · 2023年9月21日

【博士论文】分形计算系统

【博士论文】分形计算系统

专知会员服务

37+阅读 · 2021年12月9日

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

专知会员服务

108+阅读 · 2021年10月30日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

专知会员服务

39+阅读 · 2019年11月7日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

【HPC】HPC高性能计算知识: 主要应用场景和软件

【HPC】HPC高性能计算知识: 主要应用场景和软件

产业智能官

22+阅读 · 2019年3月27日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

8+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

LLM-HPC++: Evaluating LLM-Generated Modern C++ and MPI+OpenMP Codes for Scalable Mandelbrot Set Computation

Arxiv

0+阅读 · 3月13日

HPC Containers for EBRAINS: Towards Portable Cross-Domain Software Environment

Arxiv

0+阅读 · 3月12日

A task-based data-flow methodology for programming heterogeneous systems with multiple accelerator APIs

Arxiv

0+阅读 · 2月27日

Hestia: Hyperthread-Level Scheduling for Cloud Microservices with Interference-Aware Attention

Arxiv

0+阅读 · 2月27日

CARAT: Client-Side Adaptive RPC and Cache Co-Tuning for Parallel File Systems

Arxiv

0+阅读 · 2月25日

AdapTBF: Decentralized Bandwidth Control via Adaptive Token Borrowing for HPC Storage

Arxiv

0+阅读 · 2月25日

Evaluating Malleable Job Scheduling in HPC Clusters using Real-World Workloads

Arxiv

0+阅读 · 2月19日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 2月13日

Performance Cost Tradeoffs in Intelligent Load Balancing for Multi Data Center Cloud Systems: From Static Policies to Adaptive Resource Distribution

Arxiv

0+阅读 · 2月10日

ByteHouse: A Cloud-Native OLAP Engine with Incremental Computation and Multi-Modal Retrieval

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

最新内容

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

0+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

4+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

3+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

4+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

5+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

4+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

4+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

4+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

6+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

9+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

7+阅读 · 4月22日

相关VIP内容

《云边计算中加速器虚拟化技术研究》187页

《云边计算中加速器虚拟化技术研究》187页

专知会员服务

30+阅读 · 2025年4月10日

【普林斯顿博士论文】驾驭现代芯片设计中的异构性与可扩展性

【普林斯顿博士论文】驾驭现代芯片设计中的异构性与可扩展性

专知会员服务

20+阅读 · 2024年8月13日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

37+阅读 · 2024年5月24日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

《云原生标准体系白皮书（2023）》发布，52页pdf

《云原生标准体系白皮书（2023）》发布，52页pdf

专知会员服务

54+阅读 · 2023年9月21日

【博士论文】分形计算系统

【博士论文】分形计算系统

专知会员服务

37+阅读 · 2021年12月9日

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

专知会员服务

108+阅读 · 2021年10月30日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

专知会员服务

39+阅读 · 2019年11月7日

热门VIP内容

开通专知VIP会员享更多权益服务

美军条令《海军陆战队规划流程（2026版）》

《电子战数据交换模型研究报告》

国外海军作战管理系统与作战训练系统

《压缩式分布式交互仿真标准》120页

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

【HPC】HPC高性能计算知识: 主要应用场景和软件

【HPC】HPC高性能计算知识: 主要应用场景和软件

产业智能官

22+阅读 · 2019年3月27日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

相关论文

LLM-HPC++: Evaluating LLM-Generated Modern C++ and MPI+OpenMP Codes for Scalable Mandelbrot Set Computation

Arxiv

0+阅读 · 3月13日

HPC Containers for EBRAINS: Towards Portable Cross-Domain Software Environment

Arxiv

0+阅读 · 3月12日

A task-based data-flow methodology for programming heterogeneous systems with multiple accelerator APIs

Arxiv

0+阅读 · 2月27日

Hestia: Hyperthread-Level Scheduling for Cloud Microservices with Interference-Aware Attention

Arxiv

0+阅读 · 2月27日

CARAT: Client-Side Adaptive RPC and Cache Co-Tuning for Parallel File Systems

Arxiv

0+阅读 · 2月25日

AdapTBF: Decentralized Bandwidth Control via Adaptive Token Borrowing for HPC Storage

Arxiv

0+阅读 · 2月25日

Evaluating Malleable Job Scheduling in HPC Clusters using Real-World Workloads

Arxiv

0+阅读 · 2月19日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 2月13日

Performance Cost Tradeoffs in Intelligent Load Balancing for Multi Data Center Cloud Systems: From Static Policies to Adaptive Resource Distribution

Arxiv

0+阅读 · 2月10日

ByteHouse: A Cloud-Native OLAP Engine with Incremental Computation and Multi-Modal Retrieval

Arxiv

0+阅读 · 2月9日

相关基金

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

8+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员