RISE: Relay Inference and Online Scheduling for Efficient Edge-Device Collaborative Diffusion Model Services - 专知论文

会员服务 ·

0

边缘 · 调度 · 负载 · 模型服务 · 在线 ·

RISE: Relay Inference and Online Scheduling for Efficient Edge-Device Collaborative Diffusion Model Services

翻译：RISE: 面向高效边缘-设备协同扩散模型服务的接力推理与在线调度

Zilan Huang,Zhiqing Tang,Hanshuai Cui,Tian Wang,Yuan Wu,Weijia Jia,Wei Zhao

from arxiv, to be published in IEEE ICWS 2026

Text-to-image diffusion models are increasingly deployed at the network edge to serve heterogeneous workloads with diverse quality and latency requirements. However, existing deployment strategies choose either large edge-side models with high fidelity but high latency or lightweight device-side models that offer speed at the cost of semantic coherence. Moreover, these approaches rarely split the denoising workload between models of different sizes across edge servers and user devices. To bridge this gap, we propose RISE, a method for edge-device diffusion model services that combines relay inference with online scheduling. Driven by the finding that the latent intensity exhibits minimal deviation after a model handoff, RISE uses a training-free relay mechanism that exploits the shared latent space within a model family: the large model on the edge handles the early denoising steps that shape semantic structure, then passes the intermediate latent to a small device-side model for detail refinement. To deploy this mechanism as a practical service, a contextual bandit scheduler selects the best relay configuration based on prompt complexity, user preferences, network quality and real-time node loads. Experiments on two benchmarks show that RISE's relay mechanism achieves up to 2.1$\times$ speedup while preserving full-model quality, and its context-aware scheduler effectively balances quality and latency under mixed workloads.

翻译：文本到图像扩散模型正越来越多地部署在网络边缘，以承载具有多样化质量和延迟需求的异构工作负载。然而，现有的部署策略要么选择具有高保真度但高延迟的大规模边缘侧模型，要么选择以牺牲语义连贯性为代价换取速度的轻量级设备侧模型。此外，这些方法很少在边缘服务器和用户设备之间，跨不同大小的模型分配去噪工作负载。为弥合这一差距，我们提出RISE，一种将接力推理与在线调度相结合的边缘-设备扩散模型服务方法。受模型交接后潜在强度变化微乎其微这一发现的驱动，RISE采用了一种免训练的接力机制，该机制利用了模型族内的共享潜在空间：边缘侧的大模型处理塑造语义结构的早期去噪步骤，然后将中间潜在变量传递给设备侧的小模型进行细节精炼。为将这一机制部署为实用服务，一个上下文赌博调度器根据提示复杂性、用户偏好、网络质量和实时节点负载来选择最佳的接力配置。在两个基准上的实验表明，RISE的接力机制实现了高达2.1倍的加速，同时保持了完整模型的质量，且其上下文感知调度器在混合工作负载下有效平衡了质量与延迟。

0

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

《边缘云异常检测的机器学习》最新博士论文

《边缘云异常检测的机器学习》最新博士论文

专知会员服务

28+阅读 · 2024年8月8日

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

专知会员服务

22+阅读 · 2024年3月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

【KDD2021】设备-云协同学习的推荐系统

专知会员服务

19+阅读 · 2021年7月20日

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

专知会员服务

96+阅读 · 2019年11月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

20+阅读 · 2019年11月5日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机运输服务网络设计场景树压缩及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Generation Quality-Latency Tradeoff-Aware Inference Offloading for Multimodal LLMs in Cloud-Edge Continuum

Arxiv

0+阅读 · 6月13日

Eidola: Modeling Multi-GPU Network Communication Traffic in Distributed AI Workloads

Arxiv

0+阅读 · 6月10日

STEPS: Semantic-Contract-Guided Scheduling for LLM-Assisted Natural-Language-Driven Edge AI Services

Arxiv

0+阅读 · 6月8日

HASA: Subnet Allocation for Compute-Constrained Model-Heterogeneous Federated Learning

Arxiv

0+阅读 · 5月30日

Bandwidth-Aware and Cost-Efficient Pipeline Parallel Scheduling in Geo-Distributed LLM Training

Arxiv

0+阅读 · 5月25日

Joint Service Placement and Resource Optimization in Hierarchical Edge-Cloud Networks

Arxiv

0+阅读 · 5月23日

Hybrid Edge-HPC Systems for Low-Latency Data-Driven Inference

Arxiv

0+阅读 · 5月21日

TrimCaching: Parameter-sharing Edge Caching for AI Model Downloading

Arxiv

0+阅读 · 5月20日

SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference

Arxiv

0+阅读 · 5月12日

Risk-Budgeted Online Scheduling for Continuous Edge Inference over Evolving Time Horizons

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

《边缘云异常检测的机器学习》最新博士论文

《边缘云异常检测的机器学习》最新博士论文

专知会员服务

28+阅读 · 2024年8月8日

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

专知会员服务

22+阅读 · 2024年3月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

【KDD2021】设备-云协同学习的推荐系统

专知会员服务

19+阅读 · 2021年7月20日

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

专知会员服务

96+阅读 · 2019年11月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

20+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

Generation Quality-Latency Tradeoff-Aware Inference Offloading for Multimodal LLMs in Cloud-Edge Continuum

Arxiv

0+阅读 · 6月13日

Eidola: Modeling Multi-GPU Network Communication Traffic in Distributed AI Workloads

Arxiv

0+阅读 · 6月10日

STEPS: Semantic-Contract-Guided Scheduling for LLM-Assisted Natural-Language-Driven Edge AI Services

Arxiv

0+阅读 · 6月8日

HASA: Subnet Allocation for Compute-Constrained Model-Heterogeneous Federated Learning

Arxiv

0+阅读 · 5月30日

Bandwidth-Aware and Cost-Efficient Pipeline Parallel Scheduling in Geo-Distributed LLM Training

Arxiv

0+阅读 · 5月25日

Joint Service Placement and Resource Optimization in Hierarchical Edge-Cloud Networks

Arxiv

0+阅读 · 5月23日

Hybrid Edge-HPC Systems for Low-Latency Data-Driven Inference

Arxiv

0+阅读 · 5月21日

TrimCaching: Parameter-sharing Edge Caching for AI Model Downloading

Arxiv

0+阅读 · 5月20日

SPECTRE: Hybrid Ordinary-Parallel Speculative Serving for Resource-Efficient LLM Inference

Arxiv

0+阅读 · 5月12日

Risk-Budgeted Online Scheduling for Continuous Edge Inference over Evolving Time Horizons

Arxiv

0+阅读 · 5月4日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机运输服务网络设计场景树压缩及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员