Efficient workload scheduling is a critical challenge in modern heterogeneous computing environments, particularly in high-performance computing (HPC) systems. Traditional software-based schedulers struggle to efficiently balance workloads due to scheduling overhead, lack of adaptability to stochastic workloads, and suboptimal resource utilization. The scheduling problem further compounds in the context of shared HPC clusters, where job arrivals and processing times are inherently stochastic. Prediction of these elements is possible, but it introduces additional overhead. To perform this complex scheduling, we developed two FPGA-assisted hardware accelerator microarchitectures, Hercules and Stannic. Hercules adopts a task-centric abstraction of stochastic scheduling, whereas Stannic inherits a schedule-centric abstraction. These hardware-assisted solutions leverage parallelism, pre-calculation, and spatial memory access to significantly accelerate scheduling. We accelerate a non-preemptive stochastic online scheduling algorithm to produce heterogeneity-aware schedules in near real time. With Hercules, we achieved a speedup of up to 1060x over a baseline C/C++ implementation, demonstrating the efficacy of a hardware-assisted acceleration for heterogeneity-aware stochastic scheduling. With Stannic, we further improved efficiency, achieving a 7.5x reduction in latency per computation iteration and a 14x increase in the target heterogeneous system size. Experimental results show that the resulting schedules demonstrate efficient machine utilization and low average job latency in stochastic contexts.


翻译:高效的工作负载调度是现代异构计算环境(尤其是高性能计算(HPC)系统)中的关键挑战。传统基于软件的调度器因调度开销、对随机工作负载适应性不足以及资源利用率欠佳而难以有效平衡负载。在共享HPC集群环境中,任务到达与处理时间本质具有随机性,调度问题进一步加剧。尽管可对这些要素进行预测,但会引入额外开销。为完成复杂调度任务,我们开发了两种基于FPGA的硬件加速器微架构——Hercules与Stannic。Hercules采用面向任务的随机调度抽象,而Stannic则继承面向调度流程的抽象。这些硬件辅助方案通过利用并行计算、预计算与空间内存访问能力显著加速调度过程。我们实现了一种非抢占式随机在线调度算法的加速,使其能够近实时生成异构感知调度方案。基于Hercules,我们相较于基线C/C++实现获得了最高1060倍的加速比,验证了硬件辅助加速在异构感知随机调度中的有效性。通过Stannic,我们进一步提升了效率,使单次计算迭代延迟降低7.5倍,目标异构系统规模提升14倍。实验结果表明,在随机场景下,生成的调度方案实现了高效机器利用率与低平均作业延迟。

0
下载
关闭预览

相关内容

算力调度:算力时代的国家电网
专知会员服务
44+阅读 · 2023年11月7日
神经网络加速器架构概述
专知会员服务
37+阅读 · 2022年4月23日
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
脉冲神经网络(SNN)概述
人工智能前沿讲习班
62+阅读 · 2019年5月30日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关资讯
脉冲神经网络(SNN)概述
人工智能前沿讲习班
62+阅读 · 2019年5月30日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员