The ongoing convergence of HPC and cloud computing presents a fundamental challenge: HPC applications, designed for static and homogeneous supercomputers, are ill-suited for the dynamic, heterogeneous, and volatile nature of the cloud. Traditional parallel programming models like MPI struggle to leverage key cloud advantages, such as resource elasticity and low-cost spot instances, while also failing to address challenges like performance variability and processor heterogeneity. This paper demonstrates how the asynchronous, message-driven paradigm of the Charm++ parallel runtime system can bridge this gap. We present a set of tools and strategies that enable HPC applications to run efficiently and resiliently on dynamic cloud infrastructure across both CPU and GPU resources. Our work makes two key contributions. First, we demonstrate that rate-aware load balancing in Charm++ improves performance for applications running on heterogeneous CPU and GPU instances on the cloud. We further demonstrate how core Charm++ principles mitigate performance degradation from common cloud challenges like network contention and processor performance variability, which are exacerbated by the tightly coupled, globally synchronized nature of many science and engineering applications. Second, we extend an existing resource management framework to support GPU and CPU spot instances with minimal interruption overhead. Together, these contributions provide a robust framework for adapting HPC applications to achieve efficient, resilient, and cost-effective performance on the cloud.


翻译:高性能计算与云计算的持续融合提出了一个根本性挑战:为静态同构超级计算机设计的HPC应用程序,难以适应云环境动态、异构且不稳定的特性。传统的并行编程模型(如MPI)难以利用云的关键优势(如资源弹性和低成本竞价实例),同时也无法应对性能波动和处理器异构性等挑战。本文论证了Charm++并行运行时系统的异步消息驱动范式如何弥合这一鸿沟。我们提出了一套工具与策略,使HPC应用程序能够在动态云基础设施上跨CPU和GPU资源高效且鲁棒地运行。本研究的核心贡献包括两方面:首先,我们证明了Charm++中基于速率的负载均衡技术可提升应用程序在云中异构CPU与GPU实例上的运行性能。进一步地,我们展示了Charm++的核心设计原则如何缓解网络争用和处理器性能波动等常见云环境挑战导致的性能下降——这些问题因许多科学与工程应用紧密耦合、全局同步的特性而加剧。其次,我们扩展了现有资源管理框架,使其能以最小中断开销支持GPU和CPU竞价实例。这些贡献共同构成了一个稳健的框架,助力HPC应用程序在云环境中实现高效、鲁棒且经济高效的性能表现。

0
下载
关闭预览

相关内容

《云边计算中加速器虚拟化技术研究》187页
专知会员服务
30+阅读 · 2025年4月10日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
仿生感存算一体视觉系统:仿生机制、设计原理及其应用
专知会员服务
30+阅读 · 2023年11月30日
《云原生标准体系白皮书(2023)》发布,52页pdf
专知会员服务
54+阅读 · 2023年9月21日
【博士论文】分形计算系统
专知会员服务
37+阅读 · 2021年12月9日
分布式智能计算系统前沿
中国计算机学会
19+阅读 · 2019年10月8日
【HPC】HPC高性能计算知识: 主要应用场景和软件
产业智能官
22+阅读 · 2019年3月27日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
4+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
4+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
4+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
《云边计算中加速器虚拟化技术研究》187页
专知会员服务
30+阅读 · 2025年4月10日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
仿生感存算一体视觉系统:仿生机制、设计原理及其应用
专知会员服务
30+阅读 · 2023年11月30日
《云原生标准体系白皮书(2023)》发布,52页pdf
专知会员服务
54+阅读 · 2023年9月21日
【博士论文】分形计算系统
专知会员服务
37+阅读 · 2021年12月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员