Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation - 专知论文

会员服务 ·

0

映射 · 融合 · 最优 · 搜索 · 负载 ·

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

翻译：快速与融合最优：面向加速器建模与评估的融合感知优化映射器

Tanner Andrulis,Michael Gilbert,Vivienne Sze,Joel S. Emer

The latency and energy of tensor algebra accelerators depend on how data movement and operations are scheduled (i.e., mapped) onto accelerators, so determining the potential of an accelerator architecture requires both a performance model and a mapper to search for the optimal mapping. A key optimization that the mapper must explore is fusion, meaning holding data on-chip between computation steps, which has been shown to reduce energy and latency by reducing DRAM accesses. However, prior mappers cannot find optimal mappings with fusion (i.e., fused mappings) in a feasible runtime because the number of fused mappings to search increases exponentially with the number of workload computation steps. In this paper, we introduce the Fast and Fusiest Mapper (FFM), the first mapper to quickly find optimal mappings in a comprehensive fused mapspace for tensor algebra workloads. FFM shrinks the search space by pruning subsets of mappings (i.e., partial mappings) that are shown to never be a part of optimal mappings, quickly eliminating all suboptimal mappings with those partial mappings as subsets. Then FFM joins partial mappings to construct optimal fused mappings. We evaluate FFM and show that, although the mapspace size grows exponentially with the number of computation steps, FFM's runtime scales approximately linearly. FFM is orders of magnitude faster ($>1000\times$) than prior state-of-the-art approaches at finding optimal mappings for Transformers.

翻译：张量代数加速器的延迟与能耗取决于数据移动与运算操作在加速器上的调度方式（即映射方式），因此评估加速器架构潜力既需要性能模型，也需要映射器来搜索最优映射。映射器必须探索的关键优化是融合（fusion），即在计算步骤之间将数据保留在片上，已有研究表明该技术可通过减少DRAM访问来降低能耗与延迟。然而，由于融合映射的搜索数量随工作负载计算步骤数呈指数级增长，现有映射器无法在可行时间内找到融合条件下的最优映射（即融合映射）。本文提出快速与融合最优映射器（FFM），这是首个能够为张量代数工作负载在完整融合映射空间中快速找到最优映射的映射器。FFM通过剪枝被证明不可能成为最优映射组成部分的映射子集（即部分映射），快速消除所有以这些部分映射为子集的最优映射，从而压缩搜索空间。随后FFM通过合并部分映射来构建最优融合映射。实验评估表明，尽管映射空间规模随计算步骤数呈指数增长，FFM的运行时间仍保持近似线性增长。在Transformer模型的最优映射搜索任务中，FFM较现有最优方法实现了数量级（>1000倍）的速度提升。

0

相关内容

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

《深度模型融合》综述

《深度模型融合》综述

专知会员服务

75+阅读 · 2023年9月28日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

面向汽车驾驶感知的多模态传感器融合研究综述：一文详解50多种多模态图像融合方法

面向汽车驾驶感知的多模态传感器融合研究综述：一文详解50多种多模态图像融合方法

专知会员服务

60+阅读 · 2023年1月17日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

18+阅读 · 2021年3月16日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

非线性加权观测融合滤波算法及其渐近最优性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频高精度横向敏感加速度传感器及其封装应力隔离研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件驱动下信息-物理融合系统最优状态估计理论与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

光与无线融合接入网资源协同优化理论与实现机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

GPU-Accelerated Algorithms for Process Mapping

Arxiv

0+阅读 · 3月13日

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Arxiv

0+阅读 · 3月9日

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Arxiv

0+阅读 · 3月8日

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Arxiv

0+阅读 · 2月27日

The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

Refining the Complexity Landscape of Speed Scaling: Hardness and Algorithms

Arxiv

0+阅读 · 2月4日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

《深度模型融合》综述

《深度模型融合》综述

专知会员服务

75+阅读 · 2023年9月28日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

面向汽车驾驶感知的多模态传感器融合研究综述：一文详解50多种多模态图像融合方法

面向汽车驾驶感知的多模态传感器融合研究综述：一文详解50多种多模态图像融合方法

专知会员服务

60+阅读 · 2023年1月17日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

18+阅读 · 2021年3月16日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

GPU-Accelerated Algorithms for Process Mapping

Arxiv

0+阅读 · 3月13日

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Arxiv

0+阅读 · 3月9日

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Arxiv

0+阅读 · 3月8日

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Arxiv

0+阅读 · 2月27日

The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

Refining the Complexity Landscape of Speed Scaling: Hardness and Algorithms

Arxiv

0+阅读 · 2月4日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

相关基金

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

非线性加权观测融合滤波算法及其渐近最优性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频高精度横向敏感加速度传感器及其封装应力隔离研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件驱动下信息-物理融合系统最优状态估计理论与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

光与无线融合接入网资源协同优化理论与实现机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员