Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers - 专知论文

会员服务 ·

0

编译器 · 网格 · 负载 · 内存 · 层次结构 ·

Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers

翻译：Axe：面向机器学习编译器的简单统一布局抽象

Bohan Hou,Hongyi Jin,Guanjie Wang,Jinqi Chen,Yaxing Cai,Lijie Yang,Zihao Ye,Yaoyao Ding,Ruihang Lai,Tianqi Chen

Scaling modern deep learning workloads demands coordinated placement of data and compute across device meshes, memory hierarchies, and heterogeneous accelerators. We present Axe Layout, a hardware-aware abstraction that maps logical tensor coordinates to a multi-axis physical space via named axes. Axe unifies tiling, sharding, replication, and offsets across inter-device distribution and on-device layouts, enabling collective primitives to be expressed consistently from device meshes to threads. Building on Axe, we design a multi-granularity, distribution-aware DSL and compiler that composes thread-local control with collective operators in a single kernel. Experiments show that our unified approach can bring performance close to hand-tuned kernels on across latest GPU devices and multi-device environments and accelerator backends.

翻译：扩展现代深度学习工作负载需要在设备网格、内存层次结构和异构加速器之间协调数据与计算资源的布局。我们提出Axe布局，这是一种硬件感知的抽象，通过命名轴将逻辑张量坐标映射到多轴物理空间。Axe在设备间分布与设备内布局中统一了分块、分片、复制和偏移操作，使得从设备网格到线程的集体原语能够以一致方式表达。基于Axe，我们设计了一个多粒度、分布感知的领域特定语言及编译器，可在单个内核中将线程局部控制与集体算子相结合。实验表明，我们的统一方法能够在最新GPU设备、多设备环境及加速器后端上实现接近手工调优内核的性能水平。

0

相关内容

编译器

编译器（Compiler），是一种计算机程序，它会将用某种编程语言写成的源代码（原始语言），转换成另一种编程语言（目标语言）。

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【O'Reilly AI Conference 2019】深度学习的容器化架构（Containerized architectures for deep learning），AWS的 AI和机器学习技术专家Antje Barth

【O'Reilly AI Conference 2019】深度学习的容器化架构（Containerized architectures for deep learning），AWS的 AI和机器学习技术专家Antje Barth

专知会员服务

10+阅读 · 2019年11月5日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

专知会员服务

45+阅读 · 2019年10月12日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

量子位

17+阅读 · 2019年12月2日

简明深度学习学习资料分享：从基础到进阶

简明深度学习学习资料分享：从基础到进阶

深度学习与NLP

27+阅读 · 2019年9月7日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

HAWX: A Hardware-Aware FrameWork for Fast and Scalable ApproXimation of DNNs

Arxiv

0+阅读 · 2月18日

ASA: Adaptive Smart Agent Federated Learning via Device-Aware Clustering for Heterogeneous IoT

Arxiv

0+阅读 · 2月16日

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

Arxiv

0+阅读 · 2月13日

SymPlex: A Structure-Aware Transformer for Symbolic PDE Solving

Arxiv

0+阅读 · 2月3日

AXE: Low-Cost Cross-Domain Web Structured Information Extraction

Arxiv

0+阅读 · 2月2日

RulePlanner: All-in-One Reinforcement Learner for Unifying Design Rules in 3D Floorplanning

Arxiv

0+阅读 · 1月30日

Hexcute: A Compiler Framework for Automating Layout Synthesis in GPU Programs

Arxiv

0+阅读 · 1月28日

MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration

Arxiv

0+阅读 · 1月24日

UniCon: A Unified System for Efficient Robot Learning Transfers

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

6+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

2+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【O'Reilly AI Conference 2019】深度学习的容器化架构（Containerized architectures for deep learning），AWS的 AI和机器学习技术专家Antje Barth

【O'Reilly AI Conference 2019】深度学习的容器化架构（Containerized architectures for deep learning），AWS的 AI和机器学习技术专家Antje Barth

专知会员服务

10+阅读 · 2019年11月5日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

【上海交通大学】分布式移动端机器学习综述论文，28页pdf

专知会员服务

45+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

一文读懂深度学习中的矩阵微积分，fast.ai创始人&ANTLR之父出品 | 免费资源

量子位

17+阅读 · 2019年12月2日

简明深度学习学习资料分享：从基础到进阶

简明深度学习学习资料分享：从基础到进阶

深度学习与NLP

27+阅读 · 2019年9月7日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

机器学习研究会

18+阅读 · 2018年2月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

相关论文

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

HAWX: A Hardware-Aware FrameWork for Fast and Scalable ApproXimation of DNNs

Arxiv

0+阅读 · 2月18日

ASA: Adaptive Smart Agent Federated Learning via Device-Aware Clustering for Heterogeneous IoT

Arxiv

0+阅读 · 2月16日

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

Arxiv

0+阅读 · 2月13日

SymPlex: A Structure-Aware Transformer for Symbolic PDE Solving

Arxiv

0+阅读 · 2月3日

AXE: Low-Cost Cross-Domain Web Structured Information Extraction

Arxiv

0+阅读 · 2月2日

RulePlanner: All-in-One Reinforcement Learner for Unifying Design Rules in 3D Floorplanning

Arxiv

0+阅读 · 1月30日

Hexcute: A Compiler Framework for Automating Layout Synthesis in GPU Programs

Arxiv

0+阅读 · 1月28日

MetaML-Pro: Cross-Stage Design Flow Automation for Efficient Deep Learning Acceleration

Arxiv

0+阅读 · 1月24日

UniCon: A Unified System for Efficient Robot Learning Transfers

Arxiv

0+阅读 · 1月21日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂构型下多介质流体力学ALE方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员