We investigate the challenging problem of adversarial multi-armed bandits operating under time-varying constraints, a scenario motivated by numerous real-world applications. To address this complex setting, we propose a novel primal-dual algorithm that extends online mirror descent through the incorporation of suitable gradient estimators and effective constraint handling. We provide theoretical guarantees establishing sublinear dynamic regret and sublinear constraint violation for our proposed policy. Our algorithm achieves state-of-the-art performance in terms of both regret and constraint violation. Empirical evaluations demonstrate the superiority of our approach.


翻译:本文研究了时变约束下对抗性多臂老虎机这一具有挑战性的问题,该场景受到众多实际应用的驱动。为应对这一复杂设定,我们提出了一种新颖的原对偶算法,该算法通过整合合适的梯度估计器和有效的约束处理机制,扩展了在线镜像下降方法。我们为所提出的策略建立了理论保证,证明了其具有次线性动态遗憾和次线性约束违反。我们的算法在遗憾和约束违反两方面均达到了最先进的性能水平。实证评估结果验证了本方法的优越性。

0
下载
关闭预览

相关内容

基于对抗博弈下的导弹部队机动路径规划研究
专知会员服务
31+阅读 · 2024年11月5日
基于强化学习的无人机集群对抗策略推演仿真
专知会员服务
69+阅读 · 2024年4月14日
专知会员服务
26+阅读 · 2021年4月21日
无人机集群对抗研究的关键问题
无人机
65+阅读 · 2018年9月16日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
63+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
63+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员