We study online configuration selection with admission control problem, which arises in LLM serving, GPU scheduling, and revenue management. In a planning horizon with $T$ periods, we consider a two-layer framework for the decisions made within each time period. In the first layer, the decision maker selects one of the $K$ configurations (ex. quantization, parallelism, fare class) which induces distribution over the reward-resource pair of the incoming request. In the second layer, the decision maker observes the request and then decides whether to accept it or not. Benchmarking this framework requires care. We introduce a \textbf{switching-aware fluid oracle} that accounts for the value of mixing configurations over time, provably upper-bounding any online policy. We derive a max-min formulation for evaluating the benchmark, and we characterize saddle points of the max-min problem via primal-dual optimality conditions linking equilibrium, feasibility, and complementarity. This guides the design of \textbf{SP-UCB--OLP} algorithm, which solves an optimistic saddle point problem and achieves $\tilde{O}(\sqrt{KT})$ regret.


翻译:我们研究在线配置选择与准入控制问题,该问题在LLM服务、GPU调度和收益管理等领域均有出现。在一个包含$T$个周期的规划时域内,我们考虑每个时间周期内决策的双层框架。在第一层,决策者从$K$种配置(例如量化、并行化、票价等级)中选择一种,该配置会为到达请求的奖励-资源对引入一个分布。在第二层,决策者观测到请求,随后决定是否接受该请求。对此框架进行基准测试需要审慎处理。我们引入了一种**切换感知流体预言机**,该预言机考虑了随时间混合配置的价值,可证明地给出了任何在线策略的上界。我们推导了用于评估该基准的最大-最小化公式,并通过连接均衡性、可行性与互补性的原对偶最优性条件,刻画了该最大-最小问题的鞍点。这指导了**SP-UCB--OLP**算法的设计,该算法求解一个乐观鞍点问题,并实现了$\tilde{O}(\sqrt{KT})$的遗憾界。

0
下载
关闭预览

相关内容

《基于知识图谱的有限交互决策过程框架》17页论文
专知会员服务
66+阅读 · 2023年3月5日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
40+阅读 · 2021年3月26日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
SCENE-一个可扩展两层级新闻推荐系统
全球人工智能
11+阅读 · 2018年1月7日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
一文读懂深度适配网络(DAN)
数据派THU
29+阅读 · 2017年7月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《基于知识图谱的有限交互决策过程框架》17页论文
专知会员服务
66+阅读 · 2023年3月5日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
40+阅读 · 2021年3月26日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员