The convergence of high-performance computing (HPC) and artificial intelligence (AI) is driving the emergence of increasingly complex parallel applications and workloads. These workloads often combine multiple parallel runtimes within the same application or across co-located jobs, creating scheduling demands that place significant stress on traditional OS schedulers. When oversubscribed (there are more ready threads than cores), OS schedulers rely on periodic preemptions to multiplex cores, often introducing interference that may degrade performance. In this paper, we present: (1) The User-space Scheduling Framework (USF), a novel seamless process scheduling framework completely implemented in user-space. USF enables users to implement their own process scheduling algorithms without requiring special permissions. We evaluate USF with its default cooperative policy, (2) SCHED_COOP, designed to reduce interference by switching threads only upon blocking. This approach mitigates well-known issues such as Lock-Holder Preemption (LHP), Lock-Waiter Preemption (LWP), and scalability collapse. We implement USF and SCHED_COOP by extending the GNU C library with the nOS-V runtime, enabling seamless coordination across multiple runtimes (e.g., OpenMP) without requiring invasive application changes. Evaluations show gains up to 2.4x in oversubscribed multi-process scenarios, including nested BLAS workloads, multi-process PyTorch inference with LLaMA-3, and Molecular Dynamics (MD) simulations.


翻译:高性能计算(HPC)与人工智能(AI)的融合正推动着日益复杂的并行应用与工作负载的出现。这些工作负载通常在同一应用内或跨共置作业中结合多种并行运行时,由此产生的调度需求给传统操作系统调度器带来了巨大压力。当过载(就绪线程数超过核心数)时,操作系统调度器依赖周期性抢占来实现核心复用,这常常引入干扰并可能导致性能下降。本文提出:(1)用户空间调度框架(USF),一种完全在用户空间实现的新型无缝进程调度框架。USF使用户能够无需特殊权限即可实现自定义的进程调度算法。我们使用其默认协作策略(2)SCHED_COOP对USF进行评估,该策略旨在通过仅在线程阻塞时进行切换来减少干扰。此方法缓解了锁持有者抢占(LHP)、锁等待者抢占(LWP)及可扩展性崩溃等已知问题。我们通过使用nOS-V运行时扩展GNU C库实现了USF与SCHED_COOP,从而能够在无需侵入式修改应用的情况下,跨多个运行时(例如OpenMP)实现无缝协调。评估结果表明,在过载的多进程场景中(包括嵌套BLAS工作负载、使用LLaMA-3的多进程PyTorch推理以及分子动力学(MD)模拟),性能提升最高可达2.4倍。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
算力调度:算力时代的国家电网
专知会员服务
42+阅读 · 2023年11月7日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
深度学习开发必备开源框架
九章算法
12+阅读 · 2018年5月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员