MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs - 专知论文

会员服务 ·

0

编译器 · Tensor · MoDELS · 推断 · 核化 ·

MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs

翻译：《MPK：用于兆核化张量程序的编译器与运行时系统》

Xinhao Cheng,Zhihao Zhang,Yu Zhou,Jianan Ji,Jinchen Jiang,Zepeng Zhao,Ziruo Xiao,Zihao Ye,Yingyi Huang,Ruihang Lai,Hongyi Jin,Bohan Hou,Mengdi Wu,Yixin Dong,Anthony Yip,Zihao Ye,Songting Wang,Wenqin Yang,Xupeng Miao,Tianqi Chen,Zhihao Jia

from arxiv, 14 pages

We introduce Mirage Persistent Kernel (MPK), the first compiler and runtime system that automatically transforms multi-GPU model inference into a single high-performance mega-kernel. MPK introduces an SM-level graph representation that captures data dependencies at the granularity of individual streaming multiprocessors (SMs), enabling cross-operator software pipelining, \rev{fine-grained overlap of computation and communication, and other optimizations that are infeasible under the conventional kernel-per-operator execution model}. The MPK compiler lowers tensor programs into optimized SM-level task graphs and generates fast CUDA implementations for each task, while the MPK in-kernel parallel runtime executes these tasks within a single persistent mega-kernel using decentralized scheduling across SMs. Together, these components provide end-to-end kernel fusion with minimal developer effort, while preserving the flexibility of existing programming models. Our evaluation shows that MPK significantly outperforms existing kernel-per-operator LLM serving systems, achieving up to 1.7$\times$ lower end-to-end inference latency and pushing LLM inference performance close to the limits of the underlying hardware. MPK is publicly available at https://github.com/mirage-project/mirage.

翻译：我们提出Mirage持久化核（MPK），这是首个能够自动将多GPU模型推理转换为单个高性能兆核的编译器与运行时系统。MPK引入了一种SM级图表示方法，以单个流式多处理器（SM）为粒度捕获数据依赖关系，从而支持跨算子软件流水线、计算与通信的细粒度重叠，以及传统“每算子单核”执行模型下不可行的其他优化。MPK编译器将张量程序降级为优化的SM级任务图，并为每个任务生成高效的CUDA实现，而MPK内核内并行运行时则通过跨SM的分散式调度在单个持久化兆核内执行这些任务。这些组件共同在最小化开发者工作量的前提下提供端到端内核融合，同时保留现有编程模型的灵活性。评估结果表明，MPK显著优于现有的每算子单核大语言模型（LLM）服务系统，将端到端推理延迟降低高达1.7倍，并使LLM推理性能逼近底层硬件极限。MPK已在https://github.com/mirage-project/mirage开源。

0

相关内容

编译器

编译器（Compiler），是一种计算机程序，它会将用某种编程语言写成的源代码（原始语言），转换成另一种编程语言（目标语言）。

《人机编队协同作战（MUM-T）系统的等级和程序分析》

《人机编队协同作战（MUM-T）系统的等级和程序分析》

专知会员服务

107+阅读 · 2024年6月20日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

国产光刻机核心技术！清华大学ssmb-euv论文《稳态微聚束加速器光源》《物理学报》特邀综述

国产光刻机核心技术！清华大学ssmb-euv论文《稳态微聚束加速器光源》《物理学报》特邀综述

专知会员服务

25+阅读 · 2023年9月15日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

《用系统建模语言和MP构建的行为图之间的互操作性评估》美海军2022最新152页论文

《用系统建模语言和MP构建的行为图之间的互操作性评估》美海军2022最新152页论文

专知会员服务

33+阅读 · 2022年12月13日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Manning新书】掌握流式处理系统-实时事件处理，Grokking Streaming Systems Real-time event processing

【Manning新书】掌握流式处理系统-实时事件处理，Grokking Streaming Systems Real-time event processing

专知会员服务

47+阅读 · 2022年3月22日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

MIPSBLEED: Uncovering Microarchitectural Timing Leaks in Pervasive Embedded Processors

Arxiv

0+阅读 · 6月15日

SMEPilot: Characterizing and Optimizing LLM Inference with Scalable Matrix Extensions

Arxiv

0+阅读 · 6月15日

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

Arxiv

0+阅读 · 6月9日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

Multi-GPU Hybrid Particle-in-Cell Monte Carlo Simulations for Exascale Computing Systems

Arxiv

0+阅读 · 6月8日

Toward a Small ML Runtime Stack for Raspberry Pi 5 QPUs

Arxiv

0+阅读 · 6月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 6月3日

Characterization-Guided GPU Fault Resilience in NVIDIA MPS

Arxiv

0+阅读 · 5月26日

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

Arxiv

0+阅读 · 5月2日

Fleet: Hierarchical Task-based Abstraction for Megakernels on Multi-Die GPUs

Arxiv

0+阅读 · 4月15日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《人机编队协同作战（MUM-T）系统的等级和程序分析》

《人机编队协同作战（MUM-T）系统的等级和程序分析》

专知会员服务

107+阅读 · 2024年6月20日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

国产光刻机核心技术！清华大学ssmb-euv论文《稳态微聚束加速器光源》《物理学报》特邀综述

国产光刻机核心技术！清华大学ssmb-euv论文《稳态微聚束加速器光源》《物理学报》特邀综述

专知会员服务

25+阅读 · 2023年9月15日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

《用系统建模语言和MP构建的行为图之间的互操作性评估》美海军2022最新152页论文

《用系统建模语言和MP构建的行为图之间的互操作性评估》美海军2022最新152页论文

专知会员服务

33+阅读 · 2022年12月13日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Manning新书】掌握流式处理系统-实时事件处理，Grokking Streaming Systems Real-time event processing

【Manning新书】掌握流式处理系统-实时事件处理，Grokking Streaming Systems Real-time event processing

专知会员服务

47+阅读 · 2022年3月22日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

CMU大学76页深度学习课程：变分自编码器（VAE, Variational Autoencoder）

专知

28+阅读 · 2018年8月15日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

相关论文

MIPSBLEED: Uncovering Microarchitectural Timing Leaks in Pervasive Embedded Processors

Arxiv

0+阅读 · 6月15日

SMEPilot: Characterizing and Optimizing LLM Inference with Scalable Matrix Extensions

Arxiv

0+阅读 · 6月15日

Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering

Arxiv

0+阅读 · 6月9日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

Multi-GPU Hybrid Particle-in-Cell Monte Carlo Simulations for Exascale Computing Systems

Arxiv

0+阅读 · 6月8日

Toward a Small ML Runtime Stack for Raspberry Pi 5 QPUs

Arxiv

0+阅读 · 6月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 6月3日

Characterization-Guided GPU Fault Resilience in NVIDIA MPS

Arxiv

0+阅读 · 5月26日

DITRON: Distributed Multi-level Tiling Compiler for Parallel Tensor Programs

Arxiv

0+阅读 · 5月2日

Fleet: Hierarchical Task-based Abstraction for Megakernels on Multi-Die GPUs

Arxiv

0+阅读 · 4月15日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员