msf-CNN：基于补丁的多阶段融合与卷积神经网络在 TinyML 中的应用 (msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML)

AI spans from large language models to tiny models running on microcontrollers (MCUs). Extremely memory-efficient model architectures are decisive to fit within an MCU's tiny memory budget e.g., 128kB of RAM. However, inference latency must remain small to fit real-time constraints. An approach to tackle this is patch-based fusion, which aims to optimize data flows across neural network layers. In this paper, we introduce msf-CNN, a novel technique that efficiently finds optimal fusion settings for convolutional neural networks (CNNs) by walking through the fusion solution space represented as a directed acyclic graph. Compared to previous work on CNN fusion for MCUs, msf-CNN identifies a wider set of solutions. We published an implementation of msf-CNN running on various microcontrollers (ARM Cortex-M, RISC-V, ESP32). We show that msf-CNN can achieve inference using 50% less RAM compared to the prior art (MCUNetV2 and StreamNet). We thus demonstrate how msf-CNN offers additional flexibility for system designers.

翻译：人工智能的应用范围从大型语言模型延伸至运行在微控制器（MCU）上的微型模型。极度内存高效的模型架构对于适应 MCU 的微小内存预算（例如 128kB RAM）至关重要。然而，推理延迟必须保持在较低水平以满足实时性约束。解决此问题的一种方法是基于补丁的融合，其旨在优化神经网络层间的数据流。本文中，我们介绍了 msf-CNN，这是一种新颖的技术，它通过遍历表示为有向无环图的融合解空间，高效地为卷积神经网络（CNN）找到最优融合设置。与先前针对 MCU 的 CNN 融合研究相比，msf-CNN 能识别出更广泛的解集。我们发布了可在多种微控制器（ARM Cortex-M、RISC-V、ESP32）上运行的 msf-CNN 实现。实验表明，与现有技术（MCUNetV2 和 StreamNet）相比，msf-CNN 能以减少 50% 的 RAM 使用量完成推理。因此，我们证明了 msf-CNN 如何为系统设计者提供额外的灵活性。

相关内容

Neural Networks

关注 1651

神经网络（Neural Networks）是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛，以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交，有助于全面的神经网络研究，从行为和大脑建模，学习算法，通过数学和计算分析，系统的工程和技术应用，大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流，并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此，神经网络编委会代表的专家领域包括心理学，神经生物学，计算机科学，工程，数学，物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学，神经科学，学习系统，数学和计算分析、工程和应用。官网地址：http://dblp.uni-trier.de/db/journals/nn/

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日