Modern multi GPU HPC systems expose substantial computational capacity, yet inefficient GPU allocation often leads to wasted energy and underutilization. In practice, GPU applications exhibit heterogeneous and nonlinear scaling, making it inefficient to always use all available GPUs. We present EcoSched, an online scheduler that jointly optimizes GPU count selection and application coscheduling to improve workload level efficiency on multi GPU systems. EcoSched uses lightweight runtime profiling to estimate relative performance across GPU counts, applies a score based policy to balance energy efficiency and idle resources, and incorporates NUMA aware placement to mitigate interference. We implement EcoSched on heterogeneous CPU GPU platforms and evaluate it with diverse workloads on H100, A100, and V100 systems. EcoSched achieves up to 14.8% energy savings, 30.1% makespan improvement, and 40.4% EDP reduction over baseline schedulers, with modest performance overhead. These results show that jointly selecting GPU counts and coscheduling actions is essential for efficient multi GPU workload execution.


翻译:现代多GPU高性能计算系统具备强大的计算能力,但低效的GPU分配常导致能量浪费与资源利用率不足。实际应用中,GPU工作负载呈现异质非线性扩展特性,使得始终使用全部可用GPU效率低下。我们提出EcoSched——一种在线调度器,通过联合优化GPU数量选择与应用程序协同调度,提升多GPU系统的工作负载级效率。EcoSched采用轻量级运行时性能分析,估算不同GPU数量下的相对性能;应用基于评分策略平衡能效与闲置资源;并引入NUMA感知的放置策略以缓解干扰。我们在异构CPU-GPU平台上实现了EcoSched,并在H100、A100及V100系统上使用多样化工作负载进行验证。与基准调度器相比,EcoSched最高可节省14.8%能耗、缩短30.1%执行时间、降低40.4%能量延迟积,且额外性能开销可控。实验表明,联合优化GPU数量选择与协同调度行为是实现高效多GPU工作负载执行的关键。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
算力报告:算力供需双向走强,AI催化Infra建设新征程
专知会员服务
38+阅读 · 2024年9月7日
《中国绿色算力发展研究报告(2024年)》,81页pdf
专知会员服务
32+阅读 · 2024年7月14日
算力调度:算力时代的国家电网
专知会员服务
44+阅读 · 2023年11月7日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【HPC】HPC高性能计算知识: 主要应用场景和软件
产业智能官
22+阅读 · 2019年3月27日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员