Extreme-edge scientific applications use machine learning models to analyze sensor data and make real-time decisions. Their stringent latency and throughput requirements demand small batch sizes and require that model weights remain fully on-chip. Spatial dataflow implementations are common for extreme-edge applications. Spatial dataflow works well for small networks, but it fails to scale to larger models due to inherent resource scaling limitations. AI Engines on modern FPGA SoCs offer a promising alternative with high compute density and additional on-chip memory. However, the architecture, programming model, and performance-scaling behavior of AI Engines differ fundamentally from those of the programmable logic, making direct comparison non-trivial and the benefits of using AI Engines unclear. This work addresses how and when extreme-edge scientific neural networks should be implemented on AI Engines versus programmable logic. We provide systematic architectural characterization and micro-benchmarking and introduce a latency-adjusted resource equivalence (LARE) metric that identifies when AI Engine implementations outperform programmable logic designs. We further propose spatial and API-level dataflow optimizations tailored to low-latency scientific inference. Finally, we demonstrate the successful deployment of end-to-end neural networks on AI Engines that cannot fit on programmable logic when using the hlsml toolchain.


翻译:极端边缘科学应用利用机器学习模型分析传感器数据并做出实时决策。其对延迟和吞吐量的严格约束要求采用小批量处理,并确保模型权重完全保持在片内。空间数据流实现是极端边缘应用的常见方案。空间数据流在小规模网络中表现良好,但由于资源缩放的内在限制,无法扩展至更大规模的模型。现代FPGA SoC上的AI引擎凭借高计算密度和额外片内存储器,提供了一种有前景的替代方案。然而,AI引擎的架构、编程模型和性能扩展行为与可编程逻辑存在根本性差异,这使得直接比较颇具挑战,且使用AI引擎的优势尚不明确。本研究探讨了在极端边缘科学神经网络中,何时以及如何在AI引擎与可编程逻辑之间进行选择实现。我们提供了系统的架构特征分析与微基准测试,并引入了延迟调整资源等价(LARE)指标,用于识别AI引擎实现优于可编程逻辑设计的情形。进一步提出了针对低延迟科学推理定制的空间和API级数据流优化。最后,我们成功演示了在AI引擎上部署完整端到端神经网络的案例——当使用hlsml工具链时,这些网络因资源限制无法适配至可编程逻辑。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
从无人机到数据:揭示边缘计算作为新作战域
专知会员服务
26+阅读 · 2025年10月26日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
【新书】边缘智能:深度学习驱动的边缘计算,277页pdf
专知会员服务
57+阅读 · 2024年8月18日
边缘机器学习,21页ppt
专知会员服务
84+阅读 · 2021年6月21日
专知会员服务
66+阅读 · 2021年5月3日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
124+阅读 · 2020年3月30日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
2018年边缘计算行业研究报告
行业研究报告
12+阅读 · 2019年4月15日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 47分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关资讯
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
2018年边缘计算行业研究报告
行业研究报告
12+阅读 · 2019年4月15日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员