The exponential increase in Machine Learning (ML) model size and complexity has driven unprecedented demand for high-performance acceleration systems. As technology scaling enables the integration of thousands of computing elements onto a single die, the boundary between distributed and on-chip systems has blurred, making efficient on-chip collective communication increasingly critical. In this work, we present a lightweight, collective-capable Network on Chip (NoC) that supports efficient barrier synchronization alongside scalable, high-bandwidth multicast and reduction operations, co-designed for the next generation of ML accelerators. We introduce Direct Compute Access (DCA), a novel paradigm that grants the interconnect fabric direct access to the cores' computational resources, enabling high-throughput in-network reductions with a small 16.5% router area overhead. Through in-network hardware acceleration, we achieve 2.9x and 2.5x geomean speedups on multicast and reduction operations involving between 1 and 32 KiB of data, respectively. Furthermore, by keeping communication off the critical path in GEMM workloads, these features allow our architecture to scale efficiently to large meshes, resulting in up to 3.8x and 2.4x estimated performance gains through multicast and reduction support, respectively, compared to a baseline unicast NoC architecture, and up to 1.17x estimated energy savings.


翻译:机器学习模型规模和复杂度的指数级增长,催生了对高性能加速系统的空前需求。随着工艺尺寸微缩使数千个计算单元能够集成于单一芯片,分布式系统与片上系统的界限逐渐模糊,这使得高效的片上集合通信变得愈发关键。本研究提出一种轻量级、支持集合通信的片上网络(NoC),该架构在为下一代ML加速器进行协同设计的同时,可支持高效的屏障同步以及可扩展的高带宽多播与规约操作。我们引入直接计算访问(DCA)这一新型范式,允许互连结构直接访问核心的计算资源,从而以仅16.5%的路由器面积开销实现高吞吐量的网内规约。通过网内硬件加速,我们针对1至32 KiB数据量的多播与规约操作分别实现了2.9倍与2.5倍的几何平均加速比。此外,在GEMM工作负载中通过将通信置于关键路径之外,这些特性使我们的架构能够高效扩展至大规模网格,相较于基线单播NoC架构,多播与规约支持分别带来最高3.8倍与2.4倍的预估性能提升,同时实现最高1.17倍的预估能耗节省。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年7月15日
专知会员服务
18+阅读 · 2021年3月16日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
超全总结:神经网络加速之量化模型 | 附带代码
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 46分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
23+阅读 · 2021年7月15日
专知会员服务
18+阅读 · 2021年3月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员