HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference - 专知论文

会员服务 ·

0

边缘 · 自适应 · API · 精度 · 混合 ·

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

翻译：混合流：面向高效边缘-云端大语言模型推理的资源自适应子任务路由

Jiangwen Dong,Jiayu Li,Tianhang Zheng,Wanyu Lin

Edge-cloud collaborative inference is becoming a practical necessity for LLM-powered edge devices: on-device models often cannot afford the required reasoning capability, while cloud-only inference could be prohibitively costly and slow under strict latency and token/API budgets. However, existing edge-cloud collaboration methods often route per query or fixed steps simply based-on the estimated difficulty. Such coarse and static heuristics overlook subtask dependencies, missing opportunities for parallel execution and budget-adaptive routing. To this end, we propose \textbf{HybridFlow}, a resource-adaptive edge-cloud inference framework that (i) builds a dependency-aware DAG for each query and executes newly unlocked subtasks in parallel, reducing end-to-end latency; (ii) routes each subtask online to the edge or cloud via a learned benefit--cost utility model that dynamically trades accuracy gains against token/API and latency budgets, thereby reducing unnecessary cloud usage while preserving reasoning quality. Across GPQA, MMLU-Pro, AIME24, and LiveBench-Reasoning, HybridFlow improves the cost-accuracy trade-off, reducing latency and cloud API usage while maintaining competitive accuracy against strong structured reasoning baselines.

翻译：边缘-云端协同推理正逐渐成为赋能边缘设备的大语言模型的现实需求：设备端模型通常无法承担所需的推理能力，而纯云端推理在严格的延迟与token/API预算约束下可能成本过高且速度缓慢。然而，现有的边缘-云端协作方法通常仅基于预估难度对每个查询或固定步骤进行路由。这种粗粒度且静态的启发式策略忽视了子任务间的依赖关系，错失了并行执行与预算自适应路由的机会。为此，我们提出\textbf{HybridFlow}，一种资源自适应的边缘-云端推理框架，该框架（i）为每个查询构建依赖感知的有向无环图，并并行执行新解锁的子任务，从而降低端到端延迟；（ii）通过一个学习得到的效益-成本效用模型在线将每个子任务路由至边缘或云端，该模型动态权衡精度提升与token/API及延迟预算，从而在保持推理质量的同时减少不必要的云端使用。在GPQA、MMLU-Pro、AIME24和LiveBench-Reasoning等基准测试中，HybridFlow优化了成本-精度权衡，在保持与强结构化推理基线相竞争的精度同时，显著降低了延迟与云端API使用量。

0

相关内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

面向端边云协同架构的区块链技术综述

面向端边云协同架构的区块链技术综述

专知会员服务

49+阅读 · 2021年12月24日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

2018年边缘计算行业研究报告

2018年边缘计算行业研究报告

行业研究报告

12+阅读 · 2019年4月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

8+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月29日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

Stochastic Modeling and Resource Dimensioning of Multi-Cellular Edge Intelligent Systems

Arxiv

0+阅读 · 1月23日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

10+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

11+阅读 · 7月19日

相关VIP内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

面向端边云协同架构的区块链技术综述

面向端边云协同架构的区块链技术综述

专知会员服务

49+阅读 · 2021年12月24日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

2018年边缘计算行业研究报告

2018年边缘计算行业研究报告

行业研究报告

12+阅读 · 2019年4月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月29日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

Stochastic Modeling and Resource Dimensioning of Multi-Cellular Edge Intelligent Systems

Arxiv

0+阅读 · 1月23日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing

Arxiv

0+阅读 · 1月14日

相关基金

异构云小区网络中基于时延保证的资源配置新方法

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

云端融合计算环境下QoS敏感的任务调度机制研究

国家自然科学基金

8+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员