The energy and latency of an accelerator running a deep neural network (DNN) depend on how the computation and data movement are scheduled in the accelerator (i.e., mapping). Optimizing mappings is essential to evaluating and designing accelerators. However, the space of mappings is large, and prior works can not guarantee finding optimal mappings because they use heuristics or metaheuristics to narrow down the space. These limitations preclude proper hardware evaluation, since designers can not tell whether performance differences are due to changes in hardware or suboptimal mapping. To address this challenge, we propose the Turbo-Charged Mapper (TCM), a fast mapper that is guaranteed to find optimal mappings. The key to our approach is that we define a new concept in mapping, called dataplacement, which, like the prior concept of dataflow, allows for clear analysis and comparison of mappings. Through it, we identify multiple opportunities to prune redundant and suboptimal mappings, reducing search space by up to 32 orders of magnitude. Leveraging these insights, TCM can perform full mapspace searches, making it the first mapper that can find optimal mappings in feasible runtime. Compared to prior mappers, we show that TCM can find optimal mappings quickly (less than a minute), while prior works can not find optimal mappings (energy-delay-product $21\%$ higher than optimal) even when given $1000\times$ the runtime ($>10$ hours).


翻译:加速器运行深度神经网络(DNN)的能耗与延迟取决于计算和数据移动在加速器中的调度方式(即映射)。优化映射对于评估和设计加速器至关重要。然而,映射空间庞大,先前研究因采用启发式或元启发式方法缩小搜索空间而无法保证找到最优映射。这些局限性阻碍了准确的硬件评估,因为设计者无法判断性能差异是源于硬件变更还是次优映射。为解决这一挑战,我们提出涡轮增压映射器(TCM),一种能够保证找到最优映射的快速映射器。我们方法的核心在于定义了映射中的新概念——数据布局,该概念与已有的数据流概念类似,支持对映射进行清晰分析与比较。基于此概念,我们识别出多种剪枝冗余与次优映射的机会,将搜索空间最多缩小32个数量级。借助这些发现,TCM能够执行完整的映射空间搜索,成为首个可在可行运行时间内找到最优映射的映射器。与先前映射器相比,TCM可在短时间内(小于1分钟)找到最优映射,而现有方法即使获得1000倍运行时间(>10小时)仍无法找到最优映射(其能量延迟积较最优值高21%)。

0
下载
关闭预览

相关内容

最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
相关资讯
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员