The paradigm shift towards local and on-device inference under stringent resource constraints is represented by the tiny machine learning (TinyML) domain. The primary goal of TinyML is to integrate intelligence into tiny, low-cost devices under strict resource, energy, and latency constraints. However, the ultra-resource-constrained nature of these devices can lead to increased inference execution time, which can be detrimental in latency critical applications. At the same time, TinyML applications are often associated with sensitive data. As such, latency optimization approaches that rely on training samples are infeasible when such data is unavailable, proprietary, or sensitive, highlighting a pressing need for optimization approaches that do not require access to the training dataset and can be applied directly to pre-trained models. Replacing costly multiplications with more hardware-efficient operations, such as shifts and additions, has been proposed as an effective method for reducing inference latency. However, post-training power-of-two (Po2) approaches are scarce and, in many cases, lead to unacceptable accuracy loss. In this work, we propose a framework that applies approximate matrix decomposition to a given CNN in order to optimize hardware implementations subject to strict constraints and without any need of re-training or fine-tuning steps. The genetic algorithm-driven framework explores different matrix decompositions and resulting multiplier-less CNN accelerator designs for FPGA targets. A comprehensive evaluation of different TinyML benchmarks demonstrates our framework's efficacy in generating latency-optimized implementations that satisfy strict accuracy and resource constraints, achieving an average 33% latency improvement with an average accuracy loss of 1.3% compared to typical systolic array-based FPGA accelerators.


翻译:面向极端资源约束下本地及设备端推理的范式转变,体现在微型机器学习(TinyML)领域。TinyML的核心目标是在严格的资源、能耗与延迟约束下,将智能集成至微型低成本设备中。然而,这类设备的超资源受限特性可能导致推理执行时间增加,在延迟敏感型应用中可能产生严重影响。同时,TinyML应用常涉及敏感数据。因此,依赖训练样本的延迟优化方法在数据不可用、专有或敏感时无法实施,这凸显了对无需访问训练数据集、可直接应用于预训练模型的优化方法的迫切需求。用移位和加法等更高效的硬件运算替代代价高昂的乘法运算,已被证明是降低推理延迟的有效手段。然而,面向训练后模型的2的幂次(Po2)方法较为稀缺,且常导致不可接受的精度损失。本文提出一种框架,通过对给定卷积神经网络(CNN)应用近似矩阵分解,在严格约束下优化硬件实现,无需任何重训练或微调步骤。该遗传算法驱动的框架探索不同矩阵分解方案,为现场可编程门阵列(FPGA)目标生成对应的无乘法器CNN加速器设计。对多种TinyML基准的综合评估表明,本框架能生成满足严格精度与资源约束的延迟优化实现,与典型脉动阵列型FPGA加速器相比,平均延迟提升33%,精度损失仅1.3%。

0
下载
关闭预览

相关内容

TinyML 与 LargeML 的融合:面向 6G 及未来的综述
专知会员服务
23+阅读 · 2025年5月25日
MIT韩松等最新《微型机器学习TinyML: 进展与未来》综述
专知会员服务
42+阅读 · 2024年3月29日
MIT韩松博士《TinyML与高效深度学习 》课程
专知会员服务
98+阅读 · 2022年10月30日
专知会员服务
29+阅读 · 2021年6月7日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
数据挖掘入门与实战
13+阅读 · 2018年4月6日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
数据挖掘入门与实战
13+阅读 · 2018年4月6日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员