Computational complexity and storage requirements are crucial factors influencing the performance and efficiency of convolutional neural networks (CNNs) in resource-constrained environments. This paper presents a high-performance embedded target detection system based on FPGA and YOLOv3-Tiny, specifically designed for embedded artificial intelligence applications. By integrating lightweight CNN optimization techniques with hardware accelerator design, significant improvements are made in both computational efficiency and resource utilization. Key optimizations, including low-bit quantization, batch normalization fusion, and table lookup mapping, reduce model parameters and computational complexity. Additionally, an FPGA hardware accelerator with a pipelined architecture is developed to enhance the efficiency of convolution operations while minimizing off-chip data transmission through modular design and on-chip cache optimization. On the ZYNQ-XC7Z035 platform, the system achieves an inference latency of 0.211 seconds, outperforming comparable designs by 75.58% in speed. The system achieves an power efficiency of 10.11 GOPS/W, surpassing comparable designs by at least 29.45%. Furthermore, hardware resource utilization is reduced by up to 51.94% compared to similar systems. This study offers innovative design methodologies and practical application examples for the efficient deployment of deep learning models on embedded platforms.


翻译:计算复杂度与存储需求是影响卷积神经网络(CNN)在资源受限环境中性能与效率的关键因素。本文提出一种基于FPGA和YOLOv3-Tiny的高性能嵌入式目标检测系统,专为嵌入式人工智能应用设计。通过将轻量化CNN优化技术与硬件加速器设计相结合,在计算效率与资源利用率方面均取得了显著提升。关键优化技术(包括低位量化、批归一化融合与查表映射)有效减少了模型参数与计算复杂度。此外,采用流水线架构的FPGA硬件加速器增强了卷积运算效率,并通过模块化设计与片上缓存优化减少了片外数据传输。在ZYNQ-XC7Z035平台上,该系统实现了0.211秒的推理延迟,速度较同类设计提升75.58%;能效达10.11 GOPS/W,较同类设计提升至少29.45%。此外,与同类系统相比,硬件资源利用率降低高达51.94%。本研究为深度学习模型在嵌入式平台上的高效部署提供了创新设计方法与实际应用范例。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
基于深度学习模型的图像军事目标检测
专知会员服务
27+阅读 · 2025年10月18日
《基于深度学习模型的图像军事目标检测》
专知会员服务
31+阅读 · 2025年6月28日
基于深度学习及FPGA的装备目标检测研究
专知会员服务
52+阅读 · 2023年4月18日
使用多层胶囊网络的国防军事目标检测
专知会员服务
46+阅读 · 2022年8月14日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
专知会员服务
28+阅读 · 2021年8月24日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
从零开始PyTorch项目:YOLO v3目标检测实现
机器之心
15+阅读 · 2018年4月23日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
基于深度学习模型的图像军事目标检测
专知会员服务
27+阅读 · 2025年10月18日
《基于深度学习模型的图像军事目标检测》
专知会员服务
31+阅读 · 2025年6月28日
基于深度学习及FPGA的装备目标检测研究
专知会员服务
52+阅读 · 2023年4月18日
使用多层胶囊网络的国防军事目标检测
专知会员服务
46+阅读 · 2022年8月14日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
专知会员服务
28+阅读 · 2021年8月24日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
相关资讯
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
从零开始PyTorch项目:YOLO v3目标检测实现
机器之心
15+阅读 · 2018年4月23日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员