GPU clusters in multi-tenant settings often suffer from underutilization, making GPU-sharing technologies essential for efficient resource use. Among them, NVIDIA Multi-Instance GPU (MIG) has gained traction for providing hardware-level isolation that enables concurrent workloads without interference. However, MIG's hardware rigidity and the conventional one-to-one allocation model jointly lead to severe fragmentation and cluster-wide underutilization. We present Flex-MIG, a software-only framework that replaces one-to-one with a one-to-many allocation model and enables host-shared-memory collectives across MIG instances without hardware modification. Flex-MIG eliminates drain-required reconfiguration, reduces fragmentation, and improves makespan by up to 17% across diverse traces, showing that rethinking MIG's operational model as a software-coordinated layer substantially improves cluster efficiency.


翻译:多租户环境下的GPU集群常面临利用率不足的问题,这使得GPU共享技术成为高效资源利用的关键。其中,英伟达多实例GPU(MIG)因提供硬件级隔离而受到关注,该技术允许无干扰的并发工作负载。然而,MIG的硬件僵化性与传统的一对一分配模型共同导致了严重的资源碎片化和集群范围的利用率低下。本文提出Flex-MIG,一种纯软件框架,它用一对多分配模型替代一对一模型,并无需硬件修改即可实现跨MIG实例的主机共享内存集合通信。Flex-MIG消除了需要排空资源的重新配置,减少了碎片化,并在多样化跟踪中将完工时间提升高达17%,这表明将MIG的操作模型重新构想为软件协调层能显著提升集群效率。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员