Modern service systems, including cloud platforms and large language model inference endpoints, must distribute jobs across servers whose processing speeds depend on current workloads. At scale, centralized coordination is costly, while naive distributed policies can perform arbitrarily poorly. We study how to design a simple distributed load balancing policy that achieves globally optimal latency performance in such settings. We model the system as a bipartite queueing network with an arbitrary compatibility graph and servers with concave, workload-dependent service rates. We propose the Greatest Marginal Service Rate (GMSR) policy, which routes jobs to a connected server where it has the largest marginal impact on service rate. In a discrete-time stochastic model, we show that as time discretization is refined (shrinking time step and job size proportionally), the scaled workload process converges almost surely to a fluid limit governed by a differential inclusion. In the fluid regime, GMSR reaches an $ε$-suboptimal solution in $\mathcal{O}(δ+ \log(1/ε))$ time from any $δ$-suboptimal initial state, implying global convergence to the centrally optimal routing. When the system is overloaded, GMSR maximizes throughput, maximizes the number of stabilized backends among throughput-optimal policies, and minimizes total workload over those stabilized backends. GMSR yields a practical routing rule that requires neither demand-rate knowledge nor centralized coordination. By relying only on local information, service providers can achieve near-optimal latency performance through decentralized decisions, making the policy well suited to large-scale cloud computing, LLM serving, and other distributed service environments where centralized control is costly or infeasible.


翻译:摘要:现代服务系统,包括云平台和大语言模型推理端点,必须将作业分发到处理速度取决于当前工作负载的服务器上。在大规模系统中,集中式协调成本高昂,而简单的分布式策略可能表现极差。我们研究如何设计一种简单的分布式负载均衡策略,使其能在此类设置中实现全局最优的延迟性能。我们将系统建模为一个具有任意兼容图和服务速率呈凹函数且与工作负载相关的二分排队网络。我们提出了最大边际服务速率(GMSR)策略,该策略将作业路由到对其服务速率边际影响最大的已连接服务器。在一个离散时间随机模型中,我们证明,随着时间离散化细化(时间步长和作业大小按比例缩小),缩放后的工作负载过程几乎必然收敛于由微分包含控制的流体极限。在流体状态下,GMSR 从任意 δ 次优初始状态出发,能在 $\mathcal{O}(δ+ \log(1/ε))$ 时间内达到 $ε$ 次优解,这意味着其全局收敛于集中式最优路由。当系统过载时,GMSR 可最大化吞吐量,在吞吐量最优策略中最大化稳定后端数量,并最小化这些稳定后端上的总工作负载。GMSR 提供了一种实用的路由规则,既不需要需求速率知识,也不需要集中式协调。仅依赖局部信息,服务提供商即可通过分散决策实现接近最优的延迟性能,这使得该策略非常适合大规模云计算、LLM 服务以及其他集中式控制成本高昂或不可行的分布式服务环境。

0
下载
关闭预览

相关内容

《分布式任务分配:公平、隐私与安全》最新121页
专知会员服务
23+阅读 · 2025年5月29日
分布式作战的发展与关键要素分析
专知会员服务
44+阅读 · 2025年4月20日
《异步通信下的分布式武器-目标分配》
专知会员服务
63+阅读 · 2024年6月21日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
「分布式机器学习系统网络性能优化」研究进展
专知会员服务
28+阅读 · 2022年10月1日
分布式系统稳定性建设指南2022年(100页pdf)
专知会员服务
26+阅读 · 2022年6月24日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
分布式核心技术知识图谱,带走不谢
架构师之路
12+阅读 · 2019年9月23日
推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关VIP内容
《分布式任务分配:公平、隐私与安全》最新121页
专知会员服务
23+阅读 · 2025年5月29日
分布式作战的发展与关键要素分析
专知会员服务
44+阅读 · 2025年4月20日
《异步通信下的分布式武器-目标分配》
专知会员服务
63+阅读 · 2024年6月21日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
「分布式机器学习系统网络性能优化」研究进展
专知会员服务
28+阅读 · 2022年10月1日
分布式系统稳定性建设指南2022年(100页pdf)
专知会员服务
26+阅读 · 2022年6月24日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员