Toward a Small ML Runtime Stack for Raspberry Pi 5 QPUs - 专知论文

会员服务 ·

0

ML · 卷积 · 讲稿 · Packing · 操作 ·

Toward a Small ML Runtime Stack for Raspberry Pi 5 QPUs

翻译：面向树莓派5 QPU的小型机器学习运行时栈

Yiannis Hadjiyianni,Panagiotis Michelakis,Dimitrios Stamoulis

from arxiv, Accepted: MLSys 2026 Young Professionals Symposium (YPS)

We present a QPU-first ML runtime stack for Raspberry Pi 5's VideoCore VII QPU, built on top of the py-videocore7 assembly library. The system comprises reusable tiled matrix-multiplication substrate, GEMM-backed convolution, a single-head attention-style core, persistent executors, and integer execution based on smul24 instructions. For dense integer kernels, packed INT16-input with INT32 accumulation achieves nearly two orders of magnitude higher throughput over NumPy. Across operations (min/max, pooling, convolution, attention), we report improved performance over both PyTorch and NumPy. Our preliminary results indicate that Raspberry QPUs can serve as a practical execution substrate towards accelerating AI model execution at the edge.

翻译：我们提出了一种基于 py-videocore7 汇编库、面向树莓派5的VideoCore VII QPU的QPU优先机器学习运行时栈。该系统包含可复用的分块矩阵乘法基元、基于GEMM的卷积、单头注意力风格核心、持久化执行器以及基于smul24指令的整数执行逻辑。在密集型整数核上，采用打包INT16输入与INT32累加的方式，其吞吐量相比NumPy提升了近两个数量级。在各类运算（最小值/最大值、池化、卷积、注意力）中，我们报告了相比PyTorch和NumPy均有性能提升的成果。初步结果表明，Raspberry QPU可作为加速边缘AI模型执行的实用化计算基板。

0

相关内容

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

TensorFlowLite:端侧机器学习框架

TensorFlowLite:端侧机器学习框架

专知会员服务

34+阅读 · 2020年8月27日

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

35+阅读 · 2020年3月10日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

专知会员服务

121+阅读 · 2019年12月31日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

【泡泡一分钟】在CPU上进行实时无监督单目深度估计

【泡泡一分钟】在CPU上进行实时无监督单目深度估计

泡泡机器人SLAM

17+阅读 · 2019年5月10日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

泡泡机器人SLAM

12+阅读 · 2019年1月26日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

Deep Q-Learning on Hölder Spaces

Arxiv

0+阅读 · 6月15日

daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization

Arxiv

0+阅读 · 6月15日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月10日

MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs

Arxiv

0+阅读 · 6月10日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference

Arxiv

0+阅读 · 6月2日

Robotic Strawberry Harvesting with Robust Vision and Deep Reinforcement Learning based Sim-to-Real Control

Arxiv

0+阅读 · 5月22日

Scalable neuromorphic computing from autonomous spiking dynamics in a clockless reconfigurable chip

Arxiv

0+阅读 · 5月15日

Understanding Simulated Architecture via gem5 Call-Stack Profiling

Arxiv

0+阅读 · 5月2日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

9+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

4+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

7+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

9+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

4+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

8+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

6+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

6+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

6+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

4+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

10+阅读 · 7月31日

相关VIP内容

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

TensorFlowLite:端侧机器学习框架

TensorFlowLite:端侧机器学习框架

专知会员服务

34+阅读 · 2020年8月27日

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

【KDD 2020】M2GRL: 一个多任务多视角图表示学习框架的Web-scale的推荐系统，M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

专知会员服务

29+阅读 · 2020年6月30日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

35+阅读 · 2020年3月10日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

专知会员服务

121+阅读 · 2019年12月31日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

GitHub趋势榜第一：TensorFlow+PyTorch深度学习资源大汇总

新智元

19+阅读 · 2019年6月8日

【泡泡一分钟】在CPU上进行实时无监督单目深度估计

【泡泡一分钟】在CPU上进行实时无监督单目深度估计

泡泡机器人SLAM

17+阅读 · 2019年5月10日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

【泡泡图灵智库】基于CPU的实时6D物体姿态估计（arXiv）

泡泡机器人SLAM

12+阅读 · 2019年1月26日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

机器学习的Pytorch实现资源集合

机器学习的Pytorch实现资源集合

专知

11+阅读 · 2018年9月1日

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

【泡泡点云时空】FoldingNet：通过深度栅格变形的点云自编码器（CVPR2018-2）

泡泡机器人SLAM

10+阅读 · 2018年8月7日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

相关论文

Deep Q-Learning on Hölder Spaces

Arxiv

0+阅读 · 6月15日

daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization

Arxiv

0+阅读 · 6月15日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月10日

MPK: A Compiler and Runtime for Mega-Kernelizing Tensor Programs

Arxiv

0+阅读 · 6月10日

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

Arxiv

0+阅读 · 6月9日

DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference

Arxiv

0+阅读 · 6月2日

Robotic Strawberry Harvesting with Robust Vision and Deep Reinforcement Learning based Sim-to-Real Control

Arxiv

0+阅读 · 5月22日

Scalable neuromorphic computing from autonomous spiking dynamics in a clockless reconfigurable chip

Arxiv

0+阅读 · 5月15日

Understanding Simulated Architecture via gem5 Call-Stack Profiling

Arxiv

0+阅读 · 5月2日

DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs

Arxiv

0+阅读 · 2025年12月4日

相关基金

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员