Modern Graphics Processing Unit (GPU)-backed services must satisfy strict latency service-level objectives (SLOs) while controlling spare-capacity cost. In multi-tenant GPU cloud platforms, this trade-off is inherently dynamic because workload demand is endogenous; specifically, pricing shapes the submissions of heterogeneous tenants, which subsequently impact congestion and delay. We formulate the joint pricing-and-scaling problem as a large-population Stackelberg game problem, and we derive an explicit equilibrium demand map. The resulting closed-loop model reveals a structural failure mode in which delay-insensitive workloads sustain a residual demand floor, making the backlog undrainable under bounded price and service capacity. This observation motivates a computable drainability guardrail that certifies uniformly negative drift in the residual-demand regime. For any fixed price-capacity pair satisfying the drainability guardrail, we establish a unique operating point and global convergence towards it under a checkable step-size condition. Building on this fixed-pair analysis, we further develop an optimizer-agnostic action shield for the full dynamic problem and show empirically that it improves safety and robustness for model-free reinforcement learning (RL) in this setting.


翻译:现代图形处理器(GPU)支撑的服务必须满足严格延迟服务等级目标(SLO),同时控制空闲容量成本。在多租户GPU云平台中,这种权衡本质上是动态的,因为工作负载需求具有内生性;具体而言,定价策略会影响异构租户的提交行为,进而影响拥塞和延迟。我们将联合定价与扩展问题建模为大种群Stackelberg博弈问题,并推导出显式的均衡需求映射。该闭环模型揭示了一种结构性失效模式:延迟不敏感的工作负载会维持残余需求底线,导致在有限价格和服务容量下积压任务无法排空。这一发现启发我们提出一种可计算的"可排出性护栏",可确保残余需求区域具有一致负漂移。对于任何满足可排出性护栏的固定价格-容量组合,我们证明了唯一工作点的存在性,并在可验证的步长条件下建立了全局收敛性。基于该固定组合分析,我们进一步为完整动态问题设计了与优化器无关的动作保护机制,并通过实验表明该方法能提升该场景下无模型强化学习(RL)的安全性和鲁棒性。

0
下载
关闭预览

相关内容

【ChatGPT系列报告】从算力到存力:存储芯片研究框架
专知会员服务
60+阅读 · 2023年4月5日
面向端边云协同架构的区块链技术综述
专知会员服务
49+阅读 · 2021年12月24日
TensorFlowLite:端侧机器学习框架
专知会员服务
33+阅读 · 2020年8月27日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
TensorFlow 2.0新特性之Ragged Tensor
深度学习每日摘要
18+阅读 · 2019年4月5日
深度学习 | 免费使用Google Colab的GPU云计算平台
沈浩老师
12+阅读 · 2018年2月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 53分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员