Efficient workload scheduling is a critical challenge in modern heterogeneous computing environments, particularly in high-performance computing (HPC) systems. Traditional software-based schedulers struggle to efficiently balance workloads due to scheduling overhead, lack of adaptability to stochastic workloads, and suboptimal resource utilization. The scheduling problem further compounds in the context of shared HPC clusters, where job arrivals and processing times are inherently stochastic. Prediction of these elements is possible, but it introduces additional overhead. To perform this complex scheduling, we developed two FPGA-assisted hardware accelerator microarchitectures, Hercules and Stannic. Hercules adopts a task-centric abstraction of stochastic scheduling, whereas Stannic inherits a schedule-centric abstraction. These hardware-assisted solutions leverage parallelism, pre-calculation, and spatial memory access to significantly accelerate scheduling. We accelerate a non-preemptive stochastic online scheduling algorithm to produce heterogeneity-aware schedules in near real time. With Hercules, we achieved a speedup of up to 1060x over a baseline C/C++ implementation, demonstrating the efficacy of a hardware-assisted acceleration for heterogeneity-aware stochastic scheduling. With Stannic, we further improved efficiency, achieving a 7.5x reduction in latency per computation iteration and a 14x increase in the target heterogeneous system size. Experimental results show that the resulting schedules demonstrate efficient machine utilization and low average job latency in stochastic contexts.


翻译:高效的工作负载调度是现代异构计算环境(特别是高性能计算(HPC)系统)中的关键挑战。传统基于软件的调度器由于调度开销、对随机工作负载缺乏适应性以及资源利用率欠佳,难以有效平衡工作负载。在共享HPC集群中,任务到达和处理时间本质上是随机的,这使得调度问题进一步复杂化。对这些要素进行预测虽有可能,但会引入额外开销。为执行这种复杂调度,我们开发了两种FPGA辅助硬件加速器微架构:Hercules和Stannic。Hercules采用以任务为中心的随机调度抽象,而Stannic则继承以调度为中心的抽象。这些硬件辅助解决方案借助并行性、预计算和空间内存访问来显著加速调度过程。我们加速了一种非抢占式随机在线调度算法,以近乎实时的方式生成异构感知的调度方案。通过Hercules,我们实现了相对于基础C/C++实现高达1060倍的加速比,证明了硬件辅助加速对于异构感知随机调度的有效性。借助Stannic,我们进一步提升了效率,实现了每次计算迭代延迟降低7.5倍,目标异构系统规模扩大14倍。实验结果表明,在随机场景下,所生成的调度方案展现出高效的机器利用率和较低的平均任务延迟。

0
下载
关闭预览

相关内容

《云边计算中加速器虚拟化技术研究》187页
专知会员服务
31+阅读 · 2025年4月10日
算力调度:算力时代的国家电网
专知会员服务
44+阅读 · 2023年11月7日
神经网络加速器架构概述
专知会员服务
37+阅读 · 2022年4月23日
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《云边计算中加速器虚拟化技术研究》187页
专知会员服务
31+阅读 · 2025年4月10日
算力调度:算力时代的国家电网
专知会员服务
44+阅读 · 2023年11月7日
神经网络加速器架构概述
专知会员服务
37+阅读 · 2022年4月23日
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员