Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing - 专知论文

会员服务 ·

0

算法 · 数据集 · 路由算法 · 异构 · 大语言模型 ·

Efficient Routing of Inference Requests across LLM Instances in Cloud-Edge Computing

翻译：云边计算环境中跨LLM实例的高效推理请求路由

Shibo Yu,Mohammad Goudarzi,Adel Nadjaran Toosi

The rising demand for Large Language Model (LLM) inference services has intensified pressure on computational resources, resulting in latency and cost challenges. This paper introduces a novel routing algorithm based on the Non-dominated Sorting Genetic Algorithm II (NSGA-II) to distribute inference requests across heterogeneous LLM instances in a cloud-edge computing environment. Formulated as a multi-objective optimization problem, the algorithm balances response quality, response time, and inference cost, adapting to request heterogeneity (e.g., varying complexity and prompt lengths) and node diversity (e.g., edge vs. cloud resources). This adaptive routing algorithm optimizes performance under dynamic workloads. We benchmark the approach using a testbed with datasets including Stanford Question Answering Dataset (SQuAD), Mostly Basic Python Problems (MBPP), Hella Situations With Adversarial Generations (HellaSwag), and Grade School Math 8K (GSM8K). Experimental results show our solution, compared to the baselines, preserves 95.2% of Cloud-Only response quality with slight latency increase, while reducing inference cost by 34.9%. These findings validate the algorithm's effectiveness for scalable LLM deployments.

翻译：大型语言模型（LLM）推理服务需求的增长加剧了计算资源的压力，导致了延迟和成本方面的挑战。本文提出了一种基于非支配排序遗传算法II（NSGA-II）的新型路由算法，用于在云边计算环境中将推理请求分配到异构的LLM实例上。该算法被构建为一个多目标优化问题，旨在平衡响应质量、响应时间和推理成本，并能适应请求的异构性（例如，不同的复杂性和提示长度）和节点多样性（例如，边缘与云资源）。这种自适应路由算法在动态工作负载下优化了系统性能。我们使用一个包含斯坦福问答数据集（SQuAD）、基础Python问题集（MBPP）、对抗生成复杂情境数据集（HellaSwag）和小学数学8K数据集（GSM8K）的测试平台对该方法进行了基准测试。实验结果表明，与基线方法相比，我们的解决方案在仅略微增加延迟的情况下，保持了云端专用方案95.2%的响应质量，同时将推理成本降低了34.9%。这些发现验证了该算法对于可扩展LLM部署的有效性。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

53+阅读 · 2025年8月26日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

23+阅读 · 2025年8月10日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

专知

11+阅读 · 2018年2月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference

Arxiv

0+阅读 · 1月29日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月29日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月27日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

最新内容

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

1+阅读 · 29分钟前

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

1+阅读 · 44分钟前

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

0+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

6+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

3+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

5+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

6+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

5+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

5+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

5+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

8+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

11+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

相关VIP内容

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

53+阅读 · 2025年8月26日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

23+阅读 · 2025年8月10日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

国外海军作战管理系统与作战训练系统

《压缩式分布式交互仿真标准》120页

人工智能赋能无人机：俄乌战争（万字长文）

美军条令《海军陆战队规划流程（2026版）》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

【网络节点表示学习教程】在向量空间中启用网络分析和推理，清华大学崔鹏博士最新分享

专知

11+阅读 · 2018年2月9日

深度学习基础之LSTM

深度学习基础之LSTM

全球人工智能

29+阅读 · 2017年12月18日

相关论文

LLM-Driven Intent-Based Privacy-Aware Orchestration Across the Cloud-Edge Continuum

Arxiv

0+阅读 · 2月18日

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

Arxiv

0+阅读 · 2月12日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference

Arxiv

0+阅读 · 1月29日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月29日

HybridFlow: Resource-Adaptive Subtask Routing for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 1月27日

Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking

Arxiv

0+阅读 · 1月26日

HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network

Arxiv

0+阅读 · 1月16日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员