Among hardware accelerators for deep-learning inference, data flow implementations offer low latency and high throughput capabilities. In these architectures, each neuron is mapped to a dedicated hardware unit, making them well-suited for field-programmable gate array (FPGA) implementation. Previous unrolled implementations mostly focus on fully connected networks because of their simplicity, although it is well known that convolutional neural networks (CNNs) require fewer computations for the same accuracy. When observing the data flow in CNNs, pooling layers and convolutional layers with a stride larger than one, the number of data at their output is reduced with respect to their input. This data reduction strongly affects the data rate in a fully parallel implementation, making hardware units heavily underutilized unless it is handled properly. This work addresses this issue by analyzing the data flow of CNNs and presents a novel approach to designing data-rate-aware, continuous-flow CNN architectures. The proposed approach ensures a high hardware utilization close to 100% by interleaving low data rate signals and sharing hardware units, as well as using the right parallelization to achieve the throughput of a fully parallel implementation. The results show that a significant amount of the arithmetic logic can be saved, which allows implementing complex CNNs like MobileNet on a single FPGA with high throughput.


翻译:在深度学习推理的硬件加速器中,数据流架构具备低延迟与高吞吐量的优势。此类架构将每个神经元映射至专用硬件单元,因而特别适合现场可编程门阵列(FPGA)实现。先前的展开式实现主要集中于全连接网络,因其结构简单,尽管众所周知卷积神经网络(CNN)在同等精度下所需计算量更少。通过观察CNN中的数据流(包括池化层及步长大于1的卷积层),可发现其输出数据量相较于输入有所减少。这种数据缩减在完全并行实现中会严重影响数据速率,若处理不当将导致硬件单元利用率严重不足。本研究通过分析CNN的数据流,提出一种设计数据速率感知连续流CNN架构的新方法。该方法通过交错低数据速率信号、共享硬件单元以及采用恰当的并行化策略,在实现完全并行架构吞吐量的同时,确保硬件利用率接近100%。实验结果表明,该方法可显著节省算术逻辑资源,从而在单片FPGA上以高吞吐量实现如MobileNet等复杂CNN模型。

0
下载
关闭预览

相关内容

基于机器学习的FPGA电子设计自动化技术研究综述
专知会员服务
21+阅读 · 2022年11月22日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
专知会员服务
40+阅读 · 2021年5月30日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
69+阅读 · 2020年6月24日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
卷积神经网络(CNN)学习笔记1:基础入门
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
多智能体协作机制
专知会员服务
0+阅读 · 4分钟前
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关资讯
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
卷积神经网络(CNN)学习笔记1:基础入门
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员