Multi-objective bandits have attracted increasing attention because of their broad applicability and mathematical elegance, where the reward of each arm is a multi-dimensional vector rather than a scalar. This naturally introduces Pareto order relations and Pareto regret. A long-standing question in this area is whether performance is fundamentally harder to optimize because of this added complexity. A recent surprising result shows that, in the adversarial setting, Pareto regret is no larger than classical regret; however, in the stochastic setting, where the regret notion is different, the picture remains unclear. In fact, existing work suggests that Pareto regret in the stochastic case increases with the dimensionality. This controversial yet subtle phenomenon motivates our central question: \emph{are multi-objective bandits actually harder than single-objective ones?} We answer this question in full by showing that, in the stochastic setting, Pareto regret is in fact governed by the maximum sub-optimality gap \(g^\dagger\), and hence by the minimum marginal regret of order \(Ω(\frac{K\log T}{g^\dagger})\). We further develop a new algorithm that achieves Pareto regret of order \(O(\frac{K\log T}{g^\dagger})\), and is therefore optimal. The algorithm leverages a nested two-layer uncertainty quantification over both arms and objectives through upper and lower confidence bound estimators. It combines a top-two racing strategy for arm selection with an uncertainty-greedy rule for dimension selection. Together, these components balance exploration and exploitation across the two layers. We also conduct comprehensive numerical experiments to validate the proposed algorithm, showing the desired regret guarantee and significant gains over benchmark methods.


翻译:多目标老虎机因其广泛适用性和数学优雅性而日益受到关注,其中每个臂的奖励是多维向量而非标量。这自然引入了帕累托序关系和帕累托遗憾。该领域的一个长期问题是,这种额外复杂性是否从根本上使得性能优化更具挑战性。最近一个令人惊讶的结果表明,在对抗性环境中,帕累托遗憾并不大于经典遗憾;然而,在随机环境中(遗憾定义不同),情况仍不明确。事实上,现有研究表明随机情形下的帕累托遗憾会随维度增加而增大。这一存在争议且微妙的现象激发了我们核心问题的思考:\emph{多目标老虎机是否真的比单目标老虎机更难?}我们通过完整回答这个问题,证明在随机设置中,帕累托遗憾实际上由最大次优间隙 \(g^\dagger\) 主导,因此最小边际遗憾阶数为 \(\Omega(\frac{K\log T}{g^\dagger})\)。我们进一步开发了一种新算法,实现阶数为 \(O(\frac{K\log T}{g^\dagger})\) 的帕累托遗憾,因而达到最优。该算法利用嵌套双层不确定性量化机制,通过上下置信界估计器同时覆盖臂和目标维度。它将用于臂选择的top-two竞速策略与用于维度选择的不确定性贪婪规则相结合。这些组件共同平衡了两层之间的探索与利用。我们还进行了全面的数值实验验证所提出算法,展示了理想的遗憾保证及相对于基准方法的显著性能提升。

0
下载
关闭预览

相关内容

《基于随机有限集的多目标跟踪》290页
专知会员服务
45+阅读 · 2024年4月20日
美国“忠诚僚机”项目概念与技术现状
无人机
12+阅读 · 2018年11月1日
无人机集群、蜂群与蜂群算法
无人机
98+阅读 · 2018年9月25日
无人机集群对抗研究的关键问题
无人机
66+阅读 · 2018年9月16日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
64+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月28日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《基于随机有限集的多目标跟踪》290页
专知会员服务
45+阅读 · 2024年4月20日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
64+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员