蜂鸟：面向服务等级目标的微秒级GPU抢占机制 (Hummingbird: SLO-Oriented GPU Preemption at Microsecond-scale) - 专知论文

会员服务 ·

0

GPU · 面向服务 · 调度 · 细粒度 · 粒度 ·

Hummingbird: SLO-Oriented GPU Preemption at Microsecond-scale

翻译：蜂鸟：面向服务等级目标的微秒级GPU抢占机制

Tiancheng Hu,Chenxi Wang,Ting Cao,Jin Qin,Lei Chen,Xinyu Xiao,Junhao Hu,Hongliang Tian,Shoumeng Yan,Huimin Cui,Quan Chen,Tao Xie

Existing GPU-sharing techniques, including spatial and temporal sharing, aim to improve utilization but face challenges in simultaneously ensuring SLO adherence and maximizing efficiency due to the lack of fine-grained task scheduling on closed-source GPUs. This paper presents Hummingbird, an SLO-oriented GPU scheduling system that overcomes these challenges by enabling microsecond-scale preemption on closed-source GPUs while effectively harvesting idle GPU time slices. Comprehensive evaluations across diverse GPU architectures reveal that Hummingbird improves the SLO attainment of high-priority tasks by 9.7x and 3.5x compared to the state-of-the-art spatial and temporal-sharing approaches. When compared to executing exclusively, the SLO attainment of the high-priority task, collocating with low-priority tasks on Hummingbird, only drops by less than 1%. Meanwhile, the throughput of the low-priority task outperforms the state-of-the-art temporal-sharing approaches by 2.4x. Hummingbird demonstrates significant effectiveness in ensuring the SLO while enhancing GPU utilization.

翻译：现有的GPU共享技术，包括空间共享与时间共享，旨在提升利用率，但由于闭源GPU上缺乏细粒度任务调度，在同时确保服务等级目标（SLO）遵循与效率最大化方面面临挑战。本文提出蜂鸟（Hummingbird），一种面向SLO的GPU调度系统，它通过在闭源GPU上实现微秒级抢占，并有效收集空闲GPU时间片，从而克服了这些挑战。在不同GPU架构上的综合评估表明，与最先进的空间共享和时间共享方法相比，蜂鸟将高优先级任务的SLO达成率分别提升了9.7倍和3.5倍。与独占执行相比，在蜂鸟上与低优先级任务共置的高优先级任务的SLO达成率下降幅度小于1%。同时，低优先级任务的吞吐量超越了最先进的时间共享方法2.4倍。蜂鸟在确保SLO的同时显著提升了GPU利用率，证明了其卓越的有效性。

0

相关内容

GPU

《黑蜂（Black Hummingbird）微型无人机》

《黑蜂（Black Hummingbird）微型无人机》

专知会员服务

22+阅读 · 2025年12月31日

《具备先进瞄准、附加对抗措施与改进隐身技术的人工智能自主蜂群无人机系统》

《具备先进瞄准、附加对抗措施与改进隐身技术的人工智能自主蜂群无人机系统》

专知会员服务

25+阅读 · 2025年11月15日

《通过自适应蜂群智能实现认知物联网系统》

《通过自适应蜂群智能实现认知物联网系统》

专知会员服务

45+阅读 · 2023年10月29日

《全球军用无人机蜂群的发展》【各国蜂群计划、未来发展】2022最新报告，印度联合战争研究中心

《全球军用无人机蜂群的发展》【各国蜂群计划、未来发展】2022最新报告，印度联合战争研究中心

专知会员服务

215+阅读 · 2022年10月19日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

推荐！《蜂群武器：用于并行攻击的蜂群智能算法》美国陆军51页技术报告

推荐！《蜂群武器：用于并行攻击的蜂群智能算法》美国陆军51页技术报告

专知

78+阅读 · 2022年9月12日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

95+阅读 · 2018年9月25日

深度学习 | 免费使用Google Colab的GPU云计算平台

深度学习 | 免费使用Google Colab的GPU云计算平台

沈浩老师

12+阅读 · 2018年2月4日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构微蜂窝网络中的D2D通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对多目标优化的人工蜂群算法改进及在水文模型参数优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

BOA Constrictor: Squeezing Performance out of GPUs in the Cloud via Budget-Optimal Allocation

Arxiv

0+阅读 · 2月1日

HetCCL: Accelerating LLM Training with Heterogeneous GPUs

Arxiv

0+阅读 · 1月30日

ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management

Arxiv

0+阅读 · 1月29日

Hexcute: A Compiler Framework for Automating Layout Synthesis in GPU Programs

Arxiv

0+阅读 · 1月28日

Nixie: Efficient, Transparent Temporal Multiplexing for Consumer GPUs

Arxiv

0+阅读 · 1月16日

Jasper: ANNS Quantized for Speed, Built for Change on GPU

Arxiv

0+阅读 · 1月11日

BandPilot: Towards Performance- and Contention-Aware GPU Dispatching in AI Clusters

Arxiv

0+阅读 · 1月6日

Towards Fully-fledged GPU Multitasking via Proactive Memory Scheduling

Arxiv

0+阅读 · 1月2日

Revati: Transparent GPU-Free Time-Warp Emulation for LLM Serving

Arxiv

0+阅读 · 1月1日

MSched: GPU Multitasking via Proactive Memory Scheduling

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

《黑蜂（Black Hummingbird）微型无人机》

《黑蜂（Black Hummingbird）微型无人机》

专知会员服务

22+阅读 · 2025年12月31日

《具备先进瞄准、附加对抗措施与改进隐身技术的人工智能自主蜂群无人机系统》

《具备先进瞄准、附加对抗措施与改进隐身技术的人工智能自主蜂群无人机系统》

专知会员服务

25+阅读 · 2025年11月15日

《通过自适应蜂群智能实现认知物联网系统》

《通过自适应蜂群智能实现认知物联网系统》

专知会员服务

45+阅读 · 2023年10月29日

《全球军用无人机蜂群的发展》【各国蜂群计划、未来发展】2022最新报告，印度联合战争研究中心

《全球军用无人机蜂群的发展》【各国蜂群计划、未来发展】2022最新报告，印度联合战争研究中心

专知会员服务

215+阅读 · 2022年10月19日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

推荐！《蜂群武器：用于并行攻击的蜂群智能算法》美国陆军51页技术报告

推荐！《蜂群武器：用于并行攻击的蜂群智能算法》美国陆军51页技术报告

专知

78+阅读 · 2022年9月12日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

95+阅读 · 2018年9月25日

深度学习 | 免费使用Google Colab的GPU云计算平台

深度学习 | 免费使用Google Colab的GPU云计算平台

沈浩老师

12+阅读 · 2018年2月4日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

BOA Constrictor: Squeezing Performance out of GPUs in the Cloud via Budget-Optimal Allocation

Arxiv

0+阅读 · 2月1日

HetCCL: Accelerating LLM Training with Heterogeneous GPUs

Arxiv

0+阅读 · 1月30日

ScaleSim: Serving Large-Scale Multi-Agent Simulation with Invocation Distance-Based Memory Management

Arxiv

0+阅读 · 1月29日

Hexcute: A Compiler Framework for Automating Layout Synthesis in GPU Programs

Arxiv

0+阅读 · 1月28日

Nixie: Efficient, Transparent Temporal Multiplexing for Consumer GPUs

Arxiv

0+阅读 · 1月16日

Jasper: ANNS Quantized for Speed, Built for Change on GPU

Arxiv

0+阅读 · 1月11日

BandPilot: Towards Performance- and Contention-Aware GPU Dispatching in AI Clusters

Arxiv

0+阅读 · 1月6日

Towards Fully-fledged GPU Multitasking via Proactive Memory Scheduling

Arxiv

0+阅读 · 1月2日

Revati: Transparent GPU-Free Time-Warp Emulation for LLM Serving

Arxiv

0+阅读 · 1月1日

MSched: GPU Multitasking via Proactive Memory Scheduling

Arxiv

0+阅读 · 2025年12月31日

相关基金

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构微蜂窝网络中的D2D通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对多目标优化的人工蜂群算法改进及在水文模型参数优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员