Modern reconfigurable AI accelerators rely on rich mapping and data-layout flexibility to sustain high utilization across matrix multiplication, convolution, and emerging applications beyond AI. However, exposing this flexibility through fine-grained micro-control results in prohibitive control overhead of fetching configuration bits from off-chip memory. This paper presents MINISA, a minimal instruction set that programs a reconfigurable accelerator at the granularity of Virtual Neurons (VNs), the coarsest control granularity that retains flexibility of hardware and the finest granularity that avoids unnecessary control costs. First, we introduce FEATHER+, a modest refinement of FEATHER, that eliminates redundant on-chip replication needed for runtime dataflow/layout co-switching and supports dynamic cases where input and weight data are unavailable before execution for offline layout manipulation. MINISA then abstracts control of FEATHER+ into three layout-setting instructions for input, weight, and output VNs and a single mapping instruction for setting dataflow. This reduces the control and instruction footprint while preserving the legal mapping and layout space supported by the FEATHER+. Our results show that MINISA reduces geometric mean off-chip instruction traffic by factors ranging from 35x to (4x10^5)x under various sizes under 50 GEMM workloads spanning AI (GPT-oss), FHE, and ZKP. This eliminates instruction-fetch stalls that consume 96.9% of micro-instruction cycles, yielding up to 31.6x end-to-end speedup for 16x256 FEATHER+. Our code: https://github.com/maeri-project/FEATHER/tree/main/minisa.


翻译:现代可重构AI加速器依赖丰富的映射与数据布局灵活性,以在矩阵乘法、卷积及AI之外的新兴应用中维持高利用率。然而,通过细粒度微控制器暴露这种灵活性会导致从片外存储器读取配置比特的显著控制开销。本文提出MINISA,一种最小指令集,以虚拟神经元(VNs)为粒度编程可重构加速器——这是保留硬件灵活性的最粗控制粒度,同时是避免不必要控制成本的最细粒度。首先,我们引入FEATHER+,对FEATHER进行适度改进:它消除了运行时数据流/布局协同切换所需的冗余片上复制,并支持输入与权重数据在执行前不可用(从而无法进行离线布局操作)的动态场景。MINISA随后将FEATHER+的控制抽象为三条布局设置指令(分别针对输入、权重和输出VNs)及一条用于设定数据流的映射指令。这在保留FEATHER+合法映射与布局空间的同时,减少了控制与指令占用。结果显示,在涵盖AI(GPT-oss)、FHE和ZKP的50个GEMM工作负载中,针对不同规模,MINISA将几何平均片外指令流量降低了35倍至4×10^5倍。这消除了消耗微指令周期96.9%的指令获取停顿,使得16×256 FEATHER+的端到端加速比最高达31.6倍。代码开源:https://github.com/maeri-project/FEATHER/tree/main/minisa。

0
下载
关闭预览

相关内容

Phi-4:微软最新的小型语言模型,专注于复杂推理
专知会员服务
25+阅读 · 2024年12月14日
专知会员服务
23+阅读 · 2021年7月15日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员