TileLoom: Automatic Dataflow Planning for Tile-Based Languages on Spatial Dataflow Accelerators - 专知论文

会员服务 ·

0

Dataflow · 可约的 · Performer · 编译器 · 优化器 ·

TileLoom: Automatic Dataflow Planning for Tile-Based Languages on Spatial Dataflow Accelerators

翻译：TileLoom：面向空间数据流加速器的基于瓦片语言的自动数据流规划

Wei Li,Zhenyu Bai,Heru Wang,Pranav Dangi,Zhiqiang Zhang,Cheng Tan,Huiying Lan,Weng-Fai Wong,Tulika Mitra

Spatial dataflow accelerators are a promising direction for next-generation computer systems because they can reduce the memory bottlenecks of traditional von Neumann machines such as CPUs and GPUs. They organize computation around explicit, compiler-managed data movement over on-chip networks, allowing operands to be forwarded directly between processing elements and reducing reliance on high-latency, bandwidth-limited global shared memory. However, their performance depends strongly on how workloads are mapped to hardware. Naive mappings can perform poorly, and most users rely on hand-tuned vendor libraries. Thus, despite their potential for high performance, energy efficiency, and cost efficiency, limited programmability remains a major barrier to wider adoption. This paper presents TileLoom, an MLIR-based end-to-end framework that compiles tile-based programs, such as Triton kernels, onto spatial dataflow architectures. Unlike compiler frameworks that focus on optimizing code generation within a single tile, TileLoom distributes tile instances across spatially distributed cores and exploits the on-chip network and distributed memories to increase data reuse and reduce communication. TileLoom introduces a hardware representation that captures interconnect topology, memory hierarchy, and compute capabilities, enabling both architecture-specific optimizations and support for diverse spatial dataflow targets. In experiments on two generations of Tenstorrent systems, TileLoom achieves performance comparable to vendor libraries on various kernels.

翻译：空间数据流加速器因能缓解CPU和GPU等传统冯·诺依曼架构的内存瓶颈，成为下一代计算机系统的有前途方向。这类加速器通过显式的、编译器管理的片上网络数据移动来组织计算，使操作数可直接在处理单元间转发，从而减少对高延迟、带宽受限的全局共享内存的依赖。然而，其性能高度依赖于工作负载到硬件的映射方式。朴素映射方案可能表现不佳，多数用户依赖手工调优的厂商库。因此，尽管空间数据流加速器在性能、能效和成本效率方面潜力巨大，但有限的可编程性仍是其广泛应用的主要障碍。本文提出TileLoom——一个基于MLIR的端到端框架，可将Triton内核等基于瓦片的程序编译到空间数据流架构上。与专注于单个瓦片内代码生成优化的编译器框架不同，TileLoom将瓦片实例分布到空间分布的核上，并利用片上网络和分布式存储器来增加数据重用、减少通信开销。TileLoom引入了一种硬件表示方法，可捕获互连拓扑、存储层次和计算能力，从而既支持架构特定优化，又支持多样化的空间数据流目标。在两种Tenstorrent系统上的实验表明，TileLoom在各种内核上实现了与厂商库相当的性能。

0

相关内容

Dataflow

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

TinyML如何实现？法国Inria《用于微型机器学习的高效神经网络》综述，详述TinyML的神经网络设计与部署方法

TinyML如何实现？法国Inria《用于微型机器学习的高效神经网络》综述，详述TinyML的神经网络设计与部署方法

专知会员服务

40+阅读 · 2023年11月26日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

专知会员服务

86+阅读 · 2023年3月10日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

《未来网络白皮书——数据中心自动驾驶网络技术白皮书，2021版》，52页，第五届未来网络发展大会组委会

《未来网络白皮书——数据中心自动驾驶网络技术白皮书，2021版》，52页，第五届未来网络发展大会组委会

专知会员服务

25+阅读 · 2022年2月16日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

专知会员服务

28+阅读 · 2019年11月14日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于空分复用的全光互联数据中心网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 6月15日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

DxPTA: An Architecture Design Space Exploration with Optical Dataflow-guided Strategy for HW/SW Co-Design of Photonic Transformer Accelerators

Arxiv

0+阅读 · 6月2日

Rain: RDMA-assisted In-Network Scheduling for Microsecond-scale Workloads

Arxiv

0+阅读 · 6月2日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

Supporting Dynamic Control-Flow Execution for Runtime Reconfigurable Processors

Arxiv

0+阅读 · 5月20日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月20日

LiLIS: A Lightweight Distributed Learned Index Framework for Spatial Decision Analysis

Arxiv

0+阅读 · 5月13日

LLM-Driven Design Space Exploration of FPGA-based Accelerators

Arxiv

0+阅读 · 5月7日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

1+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

3+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

TinyML如何实现？法国Inria《用于微型机器学习的高效神经网络》综述，详述TinyML的神经网络设计与部署方法

TinyML如何实现？法国Inria《用于微型机器学习的高效神经网络》综述，详述TinyML的神经网络设计与部署方法

专知会员服务

40+阅读 · 2023年11月26日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

【ChatGPT系列报告】AIGC行业深度报告：ChatGPT：加速计算服务器时代到来，36页ppt

专知会员服务

86+阅读 · 2023年3月10日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

《未来网络白皮书——数据中心自动驾驶网络技术白皮书，2021版》，52页，第五届未来网络发展大会组委会

《未来网络白皮书——数据中心自动驾驶网络技术白皮书，2021版》，52页，第五届未来网络发展大会组委会

专知会员服务

25+阅读 · 2022年2月16日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

【O'Reilly TensorFlow Conference 2019】基于TensorFlow的实时流数据机器学习（Machine learning over real-time streaming data with TensorFlow）

专知会员服务

28+阅读 · 2019年11月14日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 6月15日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

DxPTA: An Architecture Design Space Exploration with Optical Dataflow-guided Strategy for HW/SW Co-Design of Photonic Transformer Accelerators

Arxiv

0+阅读 · 6月2日

Rain: RDMA-assisted In-Network Scheduling for Microsecond-scale Workloads

Arxiv

0+阅读 · 6月2日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

Supporting Dynamic Control-Flow Execution for Runtime Reconfigurable Processors

Arxiv

0+阅读 · 5月20日

PystachIO: Efficient Distributed GPU Query Processing with PyTorch over Fast Networks & Fast Storage

Arxiv

0+阅读 · 5月20日

LiLIS: A Lightweight Distributed Learned Index Framework for Spatial Decision Analysis

Arxiv

0+阅读 · 5月13日

LLM-Driven Design Space Exploration of FPGA-based Accelerators

Arxiv

0+阅读 · 5月7日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于空分复用的全光互联数据中心网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员