Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler - 专知论文

会员服务 ·

0

编译器 · AI · 并行 · 内存 · 机器翻译 ·

Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler

翻译：基于MLIR的AI内核编译器中延迟隐藏与并行性分析

Javed Absar,Samarth Narang,Muthu Baskaran

from arxiv, Accepted at MLBench workshop as part of ASPLOS'26

AI kernel compilation for edge devices depends on the compiler's ability to exploit parallelism and hide memory latency in the presence of hierarchical memory and explicit data movement. This paper reports a benchmark methodology and corresponding results for three compiler-controlled mechanisms in an MLIR-based compilation pipeline: vectorization (Vec), multi-threading (MT) across hardware contexts, and double buffering (DB) using ping--pong scratchpad buffers to overlap DMA transfers with compute. Using Triton/Inductor-generated kernels, we present an ablation ladder that separates the contribution of Vec, MT, and DB, and we quantify how MT speedup scales with problem size using GELU as a representative activation kernel. The results show that vectorization provides the primary gain for bandwidth-sensitive kernels, MT delivers substantial improvements once scheduling overhead is amortized, and DB provides additional benefit when transfers and compute can be overlapped (i.e., outside the extremes of purely memory-bound or purely compute-bound behavior).

翻译：面向边缘设备的AI内核编译依赖于编译器在存在分层内存和显式数据移动的情况下利用并行性和隐藏内存延迟的能力。本文报告了一种基准测试方法及相应结果，该方法针对基于MLIR的编译流水线中的三种编译器控制机制：向量化（Vec）、跨硬件上下文的多线程（MT）以及使用乒乓暂存缓冲区通过双缓冲（DB）实现DMA传输与计算的重叠。利用Triton/Inductor生成的内核，我们提出了一种消融阶梯来分离Vec、MT和DB的贡献，并以GELU作为代表性激活函数内核，量化了MT加速比如何随问题规模扩展。结果表明：向量化为带宽敏感型内核提供了主要增益；一旦调度开销被分摊，多线程能带来显著改进；当传输与计算能够重叠时（即在纯粹内存受限或纯粹计算受限的极端情况之外），双缓冲可提供额外收益。

0

相关内容

编译器

编译器（Compiler），是一种计算机程序，它会将用某种编程语言写成的源代码（原始语言），转换成另一种编程语言（目标语言）。

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

《人机交互中机器学习的透明通信》论文

《人机交互中机器学习的透明通信》论文

专知会员服务

35+阅读 · 2023年3月12日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知会员服务

87+阅读 · 2022年8月11日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

31+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

专知会员服务

45+阅读 · 2019年12月22日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

《可解释的机器学习-interpretable-ml》中文翻译版

《可解释的机器学习-interpretable-ml》中文翻译版

专知

88+阅读 · 2020年2月23日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

32+阅读 · 2018年10月31日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

Arxiv

0+阅读 · 3月13日

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Arxiv

0+阅读 · 3月10日

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Arxiv

0+阅读 · 3月7日

Heterogeneous Memory Design Exploration for AI Accelerators with a Gain Cell Memory Compiler

Arxiv

0+阅读 · 2月24日

Exploiting Dependency and Parallelism: Real-Time Scheduling and Analysis for GPU Tasks

Arxiv

0+阅读 · 2月24日

Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)

Arxiv

0+阅读 · 2月23日

Collaborative Processing for Multi-Tenant Inference on Memory-Constrained Edge TPUs

Arxiv

0+阅读 · 2月19日

A Latency-Constrained, Gated Recurrent Unit (GRU) Implementation in the Versal AI Engine

Arxiv

0+阅读 · 2月2日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

5+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

6+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

8+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

9+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

13+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

《人机交互中机器学习的透明通信》论文

《人机交互中机器学习的透明通信》论文

专知会员服务

35+阅读 · 2023年3月12日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知会员服务

87+阅读 · 2022年8月11日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

31+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

【阿里巴巴】 AI编译器，AI Compiler @ Alibaba，21页ppt

专知会员服务

45+阅读 · 2019年12月22日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

《可解释的机器学习-interpretable-ml》中文翻译版

《可解释的机器学习-interpretable-ml》中文翻译版

专知

88+阅读 · 2020年2月23日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

32+阅读 · 2018年10月31日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

相关论文

Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

Arxiv

0+阅读 · 3月13日

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Arxiv

0+阅读 · 3月10日

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Arxiv

0+阅读 · 3月7日

Heterogeneous Memory Design Exploration for AI Accelerators with a Gain Cell Memory Compiler

Arxiv

0+阅读 · 2月24日

Exploiting Dependency and Parallelism: Real-Time Scheduling and Analysis for GPU Tasks

Arxiv

0+阅读 · 2月24日

Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)

Arxiv

0+阅读 · 2月23日

Collaborative Processing for Multi-Tenant Inference on Memory-Constrained Edge TPUs

Arxiv

0+阅读 · 2月19日

A Latency-Constrained, Gated Recurrent Unit (GRU) Implementation in the Versal AI Engine

Arxiv

0+阅读 · 2月2日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员