In adversarial multi-armed bandits, two performance measures are commonly used: static regret, which compares the learner to the best fixed arm, and dynamic regret, which compares it to the best sequence of arms. While optimal algorithms are known for each measure individually, there is no known algorithm achieving optimal bounds for both simultaneously. Marinov and Zimmert [2021] first showed that such simultaneous optimality is impossible against an adaptive adversary. Our work takes a first step to demonstrate its possibility against an oblivious adversary when losses are deterministic. First, we extend the impossibility result of Marinov and Zimmert [2021] to the case of deterministic losses. Then, we present an algorithm achieving optimal static and dynamic regret simultaneously against an oblivious adversary. Together, they reveal a fundamental separation between adaptive and oblivious adversaries when multiple regret benchmarks are considered simultaneously. It also provides new insight into the long open problem of simultaneously achieving optimal regret against switching benchmarks of different numbers of switches. Our algorithm uses negative static regret to compensate for the exploration overhead incurred when controlling dynamic regret, and leverages Blackwell approachability to jointly control both regrets. This yields a new model selection procedure for bandits that may be of independent interest.


翻译:在对抗性多臂赌博机问题中,常用两种性能度量:静态遗憾(将学习器与最佳固定臂进行比较)和动态遗憾(将其与最佳臂序列进行比较)。虽然针对每种度量均已存在最优算法,但目前尚未有算法能同时实现两者的最优界。Marinov与Zimmert[2021]首次证明,在面对自适应对手时,这种同时最优性是不可实现的。本文首次证明,当损失函数为确定性且面对迟钝对手时,同时最优性是可以实现的。首先,我们将Marinov与Zimmert[2021]的不可能性结果扩展到确定性损失场景。随后,我们提出一种在面对迟钝对手时能同时达到最优静态与动态遗憾的算法。这两项结果共同揭示了,当同时考虑多个遗憾基准时,自适应对手与迟钝对手之间存在本质差异。该研究也为长期悬而未决的"在不同切换次数基准下同时实现最优遗憾"问题提供了新见解。我们的算法利用负静态遗憾来补偿控制动态遗憾时产生的探索开销,并借助Blackwell可逼近性来联合控制两种遗憾。这为赌博机问题提供了一种具有独立价值的新模型选择方法。

0
下载
关闭预览

相关内容

智能博弈对抗算法及其在情报领域中的应用*
专知会员服务
39+阅读 · 2024年12月1日
机器学习损失函数概述,Loss Functions in Machine Learning
专知会员服务
84+阅读 · 2022年3月19日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
智能博弈对抗算法及其在情报领域中的应用*
专知会员服务
39+阅读 · 2024年12月1日
机器学习损失函数概述,Loss Functions in Machine Learning
专知会员服务
84+阅读 · 2022年3月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员