The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation - 专知论文

会员服务 ·

0

映射 · 最优 · 搜索 · 启发式 · 搜索空间 ·

The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation

翻译：涡轮增压映射器：面向加速器建模与评估的快速最优映射方法

Michael Gilbert,Tanner Andrulis,Vivienne Sze,Joel S. Emer

The energy and latency of an accelerator running a deep neural network (DNN) depend on how the computation and data movement are scheduled in the accelerator (i.e., mapping). Optimizing mappings is essential to evaluating and designing accelerators. However, the space of mappings is large, and prior works can not guarantee finding optimal mappings because they use heuristics or metaheuristics to narrow down the space. These limitations preclude proper hardware evaluation, since designers can not tell whether performance differences are due to changes in hardware or suboptimal mapping. To address this challenge, we propose the Turbo-Charged Mapper (TCM), a fast mapper that is guaranteed to find optimal mappings. The key to our approach is that we define a new concept in mapping, called dataplacement, which, like the prior concept of dataflow, allows for clear analysis and comparison of mappings. Through it, we identify multiple opportunities to prune redundant and suboptimal mappings, reducing search space by up to 32 orders of magnitude. Leveraging these insights, TCM can perform full mapspace searches, making it the first mapper that can find optimal mappings in feasible runtime. Compared to prior mappers, we show that TCM can find optimal mappings quickly (less than a minute), while prior works can not find optimal mappings (energy-delay-product $21\%$ higher than optimal) even when given $1000\times$ the runtime ($>10$ hours).

翻译：加速器运行深度神经网络（DNN）的能耗与延迟取决于计算和数据移动在加速器中的调度方式（即映射）。优化映射对于评估和设计加速器至关重要。然而，映射空间庞大，先前研究因采用启发式或元启发式方法缩小搜索空间而无法保证找到最优映射。这些局限性阻碍了准确的硬件评估，因为设计者无法判断性能差异是源于硬件变更还是次优映射。为解决这一挑战，我们提出涡轮增压映射器（TCM），一种能够保证找到最优映射的快速映射器。我们方法的核心在于定义了映射中的新概念——数据布局，该概念与已有的数据流概念类似，支持对映射进行清晰分析与比较。基于此概念，我们识别出多种剪枝冗余与次优映射的机会，将搜索空间最多缩小32个数量级。借助这些发现，TCM能够执行完整的映射空间搜索，成为首个可在可行运行时间内找到最优映射的映射器。与先前映射器相比，TCM可在短时间内（小于1分钟）找到最优映射，而现有方法即使获得1000倍运行时间（>10小时）仍无法找到最优映射（其能量延迟积较最优值高21%）。

0

相关内容

基于深度神经网络的视频分析中的效率优化技术综述：处理系统、算法与应用

基于深度神经网络的视频分析中的效率优化技术综述：处理系统、算法与应用

专知会员服务

15+阅读 · 2025年7月22日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深空探测雷达载荷数据压缩方法与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

球形储能腔能量倍增器的研制

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

TurboMap: GPU-Accelerated Local Mapping for Visual SLAM

Arxiv

0+阅读 · 3月16日

GPU-Accelerated Algorithms for Process Mapping

Arxiv

0+阅读 · 3月13日

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Arxiv

0+阅读 · 3月9日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 3月3日

Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators

Arxiv

0+阅读 · 2月25日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

基于深度神经网络的视频分析中的效率优化技术综述：处理系统、算法与应用

基于深度神经网络的视频分析中的效率优化技术综述：处理系统、算法与应用

专知会员服务

15+阅读 · 2025年7月22日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

【深度神经网络加速器的硬件近似技术综述】Hardware Approximate Techniques for Deep Neural Network Accelerators: A Survey

专知会员服务

16+阅读 · 2022年3月17日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

相关论文

TurboMap: GPU-Accelerated Local Mapping for Visual SLAM

Arxiv

0+阅读 · 3月16日

GPU-Accelerated Algorithms for Process Mapping

Arxiv

0+阅读 · 3月13日

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Arxiv

0+阅读 · 3月9日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 3月3日

Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators

Arxiv

0+阅读 · 2月25日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

相关基金

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深空探测雷达载荷数据压缩方法与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

球形储能腔能量倍增器的研制

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员