Online resource allocation (ORA) is a fundamental framework for sequential decision-making problems under budget constraints, with applications ranging from online advertising to revenue management. In this work, we study a broader setting that includes both budget constraints and general constraints, extending the classical budget-only model. This extension is essential for modeling critical economic requirements, such as Return-on-Investment (ROI) constraints. We develop an algorithm that achieves best-of-both-world guarantees within this generalized framework. In particular, against a dynamic benchmark, our algorithm achieves $\widetilde{\mathcal O}(\sqrt{T})$ regret in the \emph{stochastic} regime and $α$-regret of order $\widetilde{\mathcal O}(\sqrt{T})$ in the \emph{adversarial} regime, where $α$ depends on the feasibility margin of the corresponding offline problem. At the same time, our algorithm guarantees strict satisfaction of the budget constraints and $\widetilde{\mathcal O}(\sqrt{T})$ cumulative violation for the general ones. From a technical perspective, introducing general constraints alongside budgets precludes the use of standard budget-focus methods. While budget methods rely on a zero-consumption ``safe'' action to ensure feasibility, general constraints are much less ``aligned'' towards feasibility. We overcome these difficulties with a new analysis that exploits \emph{weak adaptivity} to get boundedness of the Lagrangian multipliers and best-of-both-world guarantees.


翻译:在线资源分配(ORA)是预算约束下序贯决策问题的基本框架,其应用涵盖在线广告到收益管理等领域。本文研究同时包含预算约束和一般约束的更广泛设置,扩展了经典的仅含预算模型。这种扩展对于建模关键经济要求(如投资回报率(ROI)约束)至关重要。我们开发了一种算法,在该广义框架下实现了"两全其美"的保证。具体而言,针对动态基准,我们的算法在*随机*情境下达到$\widetilde{\mathcal O}(\sqrt{T})$的遗憾值,在*对抗*情境下达到阶为$\widetilde{\mathcal O}(\sqrt{T})$的$α$-遗憾值,其中$α$取决于对应离线问题的可行性裕度。同时,我们的算法严格保证预算约束的满足,并对一般约束实现$\widetilde{\mathcal O}(\sqrt{T})$的累积违反量。从技术角度看,引入一般约束与预算约束并存使得标准聚焦预算的方法失效。虽然预算方法依赖零消耗"安全"动作来确保可行性,但一般约束与可行性的"对齐"程度远低于前者。我们通过利用*弱自适应性*的新分析克服了这些困难,从而获得拉格朗日乘子的有界性及"两全其美"的保证。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】在线学习:优化、控制与学习理论
专知会员服务
31+阅读 · 2025年10月19日
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
225页《在线学习简明介绍》书册
专知会员服务
17+阅读 · 2025年5月3日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
推荐系统资源(文献、工具、框架)整理
专知
18+阅读 · 2019年2月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员