Spatial dataflow accelerators are a promising direction for next-generation computer systems because they can reduce the memory bottlenecks of traditional von Neumann machines such as CPUs and GPUs. They organize computation around explicit, compiler-managed data movement over on-chip networks, allowing operands to be forwarded directly between processing elements and reducing reliance on high-latency, bandwidth-limited global shared memory. However, their performance depends strongly on how workloads are mapped to hardware. Naive mappings can perform poorly, and most users rely on hand-tuned vendor libraries. Thus, despite their potential for high performance, energy efficiency, and cost efficiency, limited programmability remains a major barrier to wider adoption. This paper presents TileLoom, an MLIR-based end-to-end framework that compiles tile-based programs, such as Triton kernels, onto spatial dataflow architectures. Unlike compiler frameworks that focus on optimizing code generation within a single tile, TileLoom distributes tile instances across spatially distributed cores and exploits the on-chip network and distributed memories to increase data reuse and reduce communication. TileLoom introduces a hardware representation that captures interconnect topology, memory hierarchy, and compute capabilities, enabling both architecture-specific optimizations and support for diverse spatial dataflow targets. In experiments on two generations of Tenstorrent systems, TileLoom achieves performance comparable to vendor libraries on various kernels.


翻译:空间数据流加速器因能缓解CPU和GPU等传统冯·诺依曼架构的内存瓶颈,成为下一代计算机系统的有前途方向。这类加速器通过显式的、编译器管理的片上网络数据移动来组织计算,使操作数可直接在处理单元间转发,从而减少对高延迟、带宽受限的全局共享内存的依赖。然而,其性能高度依赖于工作负载到硬件的映射方式。朴素映射方案可能表现不佳,多数用户依赖手工调优的厂商库。因此,尽管空间数据流加速器在性能、能效和成本效率方面潜力巨大,但有限的可编程性仍是其广泛应用的主要障碍。本文提出TileLoom——一个基于MLIR的端到端框架,可将Triton内核等基于瓦片的程序编译到空间数据流架构上。与专注于单个瓦片内代码生成优化的编译器框架不同,TileLoom将瓦片实例分布到空间分布的核上,并利用片上网络和分布式存储器来增加数据重用、减少通信开销。TileLoom引入了一种硬件表示方法,可捕获互连拓扑、存储层次和计算能力,从而既支持架构特定优化,又支持多样化的空间数据流目标。在两种Tenstorrent系统上的实验表明,TileLoom在各种内核上实现了与厂商库相当的性能。

0
下载
关闭预览

相关内容

【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
从信息瓶颈理论一瞥机器学习的“大一统理论”
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员