HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference - 专知论文

会员服务 ·

0

边缘 · 自适应 · API · 精度 · 协同 ·

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

翻译：HybridFlow：面向高效边缘-云大语言模型推理的资源自适应子任务路由

Jiangwen Dong,Jiayu Li,Tianhang Zheng,Wanyu Lin

Edge-cloud collaborative inference is becoming a practical necessity for LLM-powered edge devices: on-device models often cannot afford the required reasoning capability, while cloud-only inference could be prohibitively costly and slow under strict latency and token/API budgets. However, existing edge-cloud collaboration methods often route per query or fixed steps simply based-on the estimated difficulty. Such coarse and static heuristics overlook subtask dependencies, missing opportunities for parallel execution and budget-adaptive routing. To this end, we propose \textbf{HybridFlow}, a resource-adaptive edge-cloud inference framework that (i) builds a dependency-aware DAG for each query and executes newly unlocked subtasks in parallel, reducing end-to-end latency; (ii) routes each subtask online to the edge or cloud via a learned benefit--cost utility model that dynamically trades accuracy gains against token/API and latency budgets, thereby reducing unnecessary cloud usage while preserving reasoning quality. Across GPQA, MMLU-Pro, AIME24, and LiveBench-Reasoning, HybridFlow improves the cost-accuracy trade-off, reducing latency and cloud API usage while maintaining competitive accuracy against strong structured reasoning baselines.

翻译：边缘-云协同推理正逐渐成为大语言模型赋能边缘设备的实际需求：设备端模型通常无法满足所需的推理能力，而纯云端推理在严格的延迟与token/API预算约束下可能成本过高且速度缓慢。然而，现有的边缘-云协同方法通常基于预估难度对每个查询或固定步骤进行简单路由。此类粗粒度静态启发式策略忽视了子任务间的依赖关系，错失了并行执行与预算自适应路由的优化机会。为此，我们提出\textbf{HybridFlow}——一种资源自适应的边缘-云推理框架，其具备以下特性：（i）为每个查询构建依赖感知的有向无环图，并行执行新解锁的子任务，从而降低端到端延迟；（ii）通过学习的效益-成本效用模型在线将每个子任务路由至边缘或云端，动态权衡精度提升与token/API及延迟预算，从而在保持推理质量的同时减少不必要的云端资源消耗。在GPQA、MMLU-Pro、AIME24和LiveBench-Reasoning等基准测试中，HybridFlow显著优化了成本-精度权衡，在保持与强结构化推理基线模型相当精度的同时，有效降低了延迟与云端API使用量。

0

相关内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

36+阅读 · 2025年4月12日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

41+阅读 · 2024年7月31日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

2018年边缘计算行业研究报告

2018年边缘计算行业研究报告

行业研究报告

12+阅读 · 2019年4月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference

Arxiv

0+阅读 · 2月2日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月27日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

乌军利用美国“黄蜂”无人机摧毁俄军后勤

乌军利用美国“黄蜂”无人机摧毁俄军后勤

专知会员服务

1+阅读 · 今天14:53

《支持作战级人机协同智能的交互式OODA流程》

《支持作战级人机协同智能的交互式OODA流程》

专知会员服务

2+阅读 · 今天14:46

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

专知会员服务

1+阅读 · 今天14:42

大语言模型与物联网：大语言模型与物联网融合全面综述

大语言模型与物联网：大语言模型与物联网融合全面综述

专知会员服务

3+阅读 · 今天14:35

【伯克利博士论文】基于动作分块策略的强化学习

【伯克利博士论文】基于动作分块策略的强化学习

专知会员服务

1+阅读 · 今天13:50

Transformer增强强化学习：通信网络基础与应用综述

Transformer增强强化学习：通信网络基础与应用综述

专知会员服务

1+阅读 · 今天13:47

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

5+阅读 · 6月6日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

7+阅读 · 6月6日

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

12+阅读 · 6月6日

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

7+阅读 · 6月6日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

9+阅读 · 6月6日

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

9+阅读 · 6月6日

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

7+阅读 · 6月6日

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

10+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

7+阅读 · 6月5日

相关VIP内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

36+阅读 · 2025年4月12日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

41+阅读 · 2024年7月31日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《支持作战级人机协同智能的交互式OODA流程》

大语言模型与物联网：大语言模型与物联网融合全面综述

乌军利用美国“黄蜂”无人机摧毁俄军后勤

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

相关资讯

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

2018年边缘计算行业研究报告

2018年边缘计算行业研究报告

行业研究报告

12+阅读 · 2019年4月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference

Arxiv

0+阅读 · 2月2日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月27日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing

Arxiv

0+阅读 · 1月14日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员