General matrix multiplication (GEMM) on spatial accelerators is highly sensitive to mapping choices in both execution efficiency and energy consumption. However, the mapping space exhibits combinatorial explosion, which makes it extremely challenging to obtain optimal mappings within an acceptable time budget. Existing approaches typically face challenges: They often lack global-optimality guarantees and become prohibitively slow as the mapping space grows. To address these limitations, we propose \textsc{GOMA}, a geometric-abstraction-based, globally optimal GEMM mapping framework via analytical modeling, which achieves efficient solving while guaranteeing optimality. \textsc{GOMA} introduces, from first principles, a geometric abstraction for GEMM mapping, yielding an exact analytical energy objective with $O(1)$ evaluation for any given mapping. The objective is highly accurate. \textsc{GOMA} then formulates mapping selection as an integer optimization problem under hardware and mapping constraints, using the analytical energy model as the objective to automate mapping search. \textsc{GOMA} can quickly compute a global-optimal mapping for any (GEMM workload, target hardware) pair, achieving this for the first time in mapping space exploration. Experiments confirm that across representative accelerators and large language model prefill workloads, \textsc{GOMA} improves the energy--delay product (EDP) by $2.24$--$4.24\times$ over SOTA mappers, while accelerating time-to-solution by $3.83$--$73.6\times$.


翻译:在空间加速器上执行通用矩阵乘法(GEMM)时,其执行效率与能耗对映射策略的选择极为敏感。然而,映射空间存在组合爆炸问题,这使得在可接受的时间预算内获取最优映射极具挑战性。现有方法通常面临以下难题:它们往往缺乏全局最优性保证,并且随着映射空间增长,求解速度会变得极其缓慢。为应对这些局限,我们提出了 \textsc{GOMA}——一个基于几何抽象、通过解析建模实现全局最优 GEMM 映射的框架,该框架在保证最优性的同时实现了高效求解。\textsc{GOMA} 从基本原理出发,为 GEMM 映射引入了一种几何抽象,从而为任意给定映射推导出具有 $O(1)$ 评估复杂度的精确解析能耗目标函数。该目标函数具有很高的准确性。随后,\textsc{GOMA} 将映射选择问题表述为硬件与映射约束下的整数优化问题,并以该解析能耗模型为目标函数,实现映射搜索的自动化。\textsc{GOMA} 能够为任意(GEMM 工作负载,目标硬件)组合快速计算出一个全局最优映射,这在映射空间探索领域尚属首次。实验证实,在代表性加速器与大语言模型预填充工作负载上,\textsc{GOMA} 相较于当前最先进的映射器,将能量-延迟乘积(EDP)提升了 $2.24$--$4.24\times$,同时将求解时间加速了 $3.83$--$73.6\times$。

0
下载
关闭预览

相关内容

《通信和导航中的优化算法设计》美国空军研究实验室
专知会员服务
40+阅读 · 2022年8月19日
【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
2+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
9+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
6+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员