Multi-DNN Inference of Sparse Models on Edge SoCs - 专知论文

会员服务 ·

0

DNN · 系统 · 稀疏 · 边缘 · 稀疏模型 ·

Multi-DNN Inference of Sparse Models on Edge SoCs

翻译：边缘SoC上稀疏模型的多DNN推理

Jiawei Luo,Di Wu,Simon Dobson,Blesson Varghese

Modern edge applications increasingly require multi-DNN inference systems to execute tasks on heterogeneous processors, gaining performance from both concurrent execution and from matching each model to the most suited accelerator. However, existing systems support only a single model (or a few sparse variants) per task, which impedes the efficiency of this matching and results in high Service Level Objective violation rates. We introduce model stitching for multi-DNN inference systems, which creates model variants by recombining subgraphs from sparse models without re-training. We present a demonstrator system, SparseLoom, that shows model stitching can be deployed to SoCs. We show experimentally that SparseLoom reduces SLO violation rates by up to 74%, improves throughput by up to 2.31x, and lowers memory overhead by an average of 28% compared to state-of-the-art multi-DNN inference systems.

翻译：现代边缘应用日益需要多DNN推理系统在异构处理器上执行任务，通过并发执行以及将每个模型匹配至最适合的加速器来提升性能。然而，现有系统每个任务仅支持单一模型（或少数稀疏变体），这阻碍了此类匹配的效率，并导致较高的服务等级目标违反率。我们为多DNN推理系统引入了模型拼接技术，该技术通过重组稀疏模型的子图来创建模型变体，而无需重新训练。我们展示了一个演示系统SparseLoom，表明模型拼接可部署至SoC。实验表明，与最先进的多DNN推理系统相比，SparseLoom将SLO违反率降低高达74%，吞吐量提升高达2.31倍，并平均降低28%的内存开销。

0

相关内容

DNN

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

【AAAI2025】基于全局变换器的模态无关图神经网络在多模态推荐中的应用

【AAAI2025】基于全局变换器的模态无关图神经网络在多模态推荐中的应用

专知会员服务

17+阅读 · 2024年12月19日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

专知会员服务

43+阅读 · 2022年6月9日

GNN如何用于因果推断？TU&DeepMind-AAAI2022投稿论文《关联图神经网络与结构因果模型》阐述基于GNN的因果推理

GNN如何用于因果推断？TU&DeepMind-AAAI2022投稿论文《关联图神经网络与结构因果模型》阐述基于GNN的因果推理

专知会员服务

56+阅读 · 2021年9月10日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

近期必读的6篇【图神经网络的推荐（GNN+R）】相关论文和代码（WWW、SIGIR、WSDM）

近期必读的6篇【图神经网络的推荐（GNN+R）】相关论文和代码（WWW、SIGIR、WSDM）

专知

199+阅读 · 2019年5月7日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

多域SDN网络安全高效拓扑发现机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

A PAC-Bayesian Analysis of Channel-Induced Degradation in Edge Inference

Arxiv

0+阅读 · 5月4日

Design Insights into Partition Placement and Routing for DNN Inference in Multi-Hop Edge Networks

Arxiv

0+阅读 · 4月28日

Multimodal Remote Inference

Arxiv

0+阅读 · 4月25日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 4月20日

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Arxiv

0+阅读 · 3月30日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 3月27日

Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference

Arxiv

0+阅读 · 3月24日

IMMSched: Interruptible Multi-DNN Scheduling via Parallel Multi-Particle Optimizing Subgraph Isomorphism

Arxiv

0+阅读 · 3月23日

Mix-and-Match Pruning: Globally Guided Layer-Wise Sparsification of DNNs

Arxiv

0+阅读 · 3月17日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

3+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

3+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

8+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

8+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

10+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

10+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

13+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

9+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

8+阅读 · 5月30日

相关VIP内容

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

【AAAI2025】基于全局变换器的模态无关图神经网络在多模态推荐中的应用

【AAAI2025】基于全局变换器的模态无关图神经网络在多模态推荐中的应用

专知会员服务

17+阅读 · 2024年12月19日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

GNN如何泛化？这篇135页pdf博士论文《神经图推理与学习的泛化评估与改进》

专知会员服务

43+阅读 · 2022年6月9日

GNN如何用于因果推断？TU&DeepMind-AAAI2022投稿论文《关联图神经网络与结构因果模型》阐述基于GNN的因果推理

GNN如何用于因果推断？TU&DeepMind-AAAI2022投稿论文《关联图神经网络与结构因果模型》阐述基于GNN的因果推理

专知会员服务

56+阅读 · 2021年9月10日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

开源 | 基于会话的最优推荐模型：SR-GNN的PaddlePaddle实现

量子位

13+阅读 · 2019年5月13日

近期必读的6篇【图神经网络的推荐（GNN+R）】相关论文和代码（WWW、SIGIR、WSDM）

近期必读的6篇【图神经网络的推荐（GNN+R）】相关论文和代码（WWW、SIGIR、WSDM）

专知

199+阅读 · 2019年5月7日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

相关论文

A PAC-Bayesian Analysis of Channel-Induced Degradation in Edge Inference

Arxiv

0+阅读 · 5月4日

Design Insights into Partition Placement and Routing for DNN Inference in Multi-Hop Edge Networks

Arxiv

0+阅读 · 4月28日

Multimodal Remote Inference

Arxiv

0+阅读 · 4月25日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 4月20日

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Arxiv

0+阅读 · 3月30日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 3月27日

Characterizing CPU-Induced Slowdowns in Multi-GPU LLM Inference

Arxiv

0+阅读 · 3月24日

IMMSched: Interruptible Multi-DNN Scheduling via Parallel Multi-Particle Optimizing Subgraph Isomorphism

Arxiv

0+阅读 · 3月23日

Mix-and-Match Pruning: Globally Guided Layer-Wise Sparsification of DNNs

Arxiv

0+阅读 · 3月17日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

相关基金

多域SDN网络安全高效拓扑发现机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员