Mamba is an emerging, complex workload with various short-range and long-range dependencies, nonlinearities, and elementwise computations that are unable to run at near-peak speeds on modern hardware. Specifically, Mamba's complex dependency graph makes fusion across its full operator cascade difficult, leaving substantial inter-operator memory traffic on the table. To address these challenges, we propose Mambalaya, a novel reconfigurable accelerator that leverages fusion to overcome the limitations of Mamba. We use the recently proposed cascade-of-Einsums abstraction to characterize Mamba's full computational structure, then apply the extended Einsum framework to systematically explore inter-Einsum fusion opportunities. This principled approach yields a series of fusion mappings that reduce off-chip inter-Einsum traffic. These mappings are supported by the underlying Mambalaya architecture. Mambalaya achieves a layer performance speedup of 4.9$\times$ for prefill and 1.9$\times$ for generation over MARCA. In prefill-dominated scenarios, it achieves up to 1.5$\times$ over a recent fine-grained, memory-aware fusion accelerator for Mamba.


翻译:曼巴(Mamba)是一种新兴的复杂工作负载,包含多种短程与长程依赖、非线性运算及逐元素计算,难以在现代硬件上实现近峰值运行速度。具体而言,曼巴复杂的依赖关系图使其难以在完整的算子级联上进行融合,导致大量跨算子内存流量无法被充分利用。为解决这一挑战,我们提出Mambalaya——一种新型可重构加速器,通过融合技术突破曼巴的局限性。我们采用近期提出的Einsum级联抽象来表征曼巴的完整计算结构,随后应用扩展后的Einsum框架系统探索Einsum间融合机会。这一原则性方法产生了一系列融合映射,可减少片外Einsum间数据流量,而这些映射由底层Mambalaya架构提供支持。相较于MARCA,Mambalaya在预填充阶段实现了4.9倍的单层性能加速,在生成阶段实现了1.9倍加速。在预填充主导的场景中,其性能较近期为曼巴设计的细粒度内存感知融合加速器提升最高达1.5倍。

0
下载
关闭预览

相关内容

《图Mamba》最新综述,探索图学习中的状态空间模型
专知会员服务
31+阅读 · 2024年12月26日
《视觉中的Mamba:技术与应用》全面综述
专知会员服务
37+阅读 · 2024年10月7日
模型即服务MaaS框架与应用研究报告(2024年),46页pdf
专知会员服务
66+阅读 · 2024年6月9日
谷歌开源模型系列「Gemma」技术报告,中英文版
专知会员服务
47+阅读 · 2024年2月22日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
1+阅读 · 45分钟前
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关资讯
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员