Pure exploration in bandits formalises multiple real-world problems, such as tuning hyper-parameters or conducting user studies to test a set of items, where different safety, resource, and fairness constraints on the decision space naturally appear. We study these problems as pure exploration in multi-armed bandits with unknown linear constraints, where the aim is to identify an $r$-optimal and feasible policy as fast as possible with a given level of confidence. First, we propose a Lagrangian relaxation of the sample complexity lower bound for pure exploration under constraints. Second, we leverage properties of convex optimisation in the Lagrangian lower bound to propose two computationally efficient extensions of Track-and-Stop and Gamified Explorer, namely LATS and LAGEX. Then, we propose a constraint-adaptive stopping rule, and while tracking the lower bound, use optimistic estimate of the feasible set at each step. We show that LAGEX achieves asymptotically optimal sample complexity upper bound, while LATS shows asymptotic optimality up to novel constraint-dependent constants. Finally, we conduct numerical experiments with different reward distributions and constraints that validate efficient performance of LATS and LAGEX.


翻译:赌博机中的纯探索形式化地描述了多个现实世界问题,例如调整超参数或进行用户研究以测试一组项目,其中决策空间上自然存在不同的安全性、资源与公平性约束。我们将这些问题作为具有未知线性约束的多臂赌博机中的纯探索进行研究,其目标是在给定置信水平下尽可能快地识别出一个 $r$ 最优且可行的策略。首先,我们提出了约束下纯探索的样本复杂度下界的拉格朗日松弛。其次,我们利用拉格朗日下界中凸优化的性质,提出了 Track-and-Stop 和 Gamified Explorer 的两种计算高效扩展,即 LATS 和 LAGEX。接着,我们提出了一种约束自适应的停止规则,并在跟踪下界的同时,在每一步使用可行集的乐观估计。我们证明 LAGEX 实现了渐近最优的样本复杂度上界,而 LATS 则展现出直至新颖的约束相关常数的渐近最优性。最后,我们使用不同的奖励分布和约束进行了数值实验,验证了 LATS 和 LAGEX 的高效性能。

0
下载
关闭预览

相关内容

【博士论文】面向未知感知的机器学习基础
专知会员服务
17+阅读 · 2025年5月22日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
【博士论文】面向未知感知的机器学习基础
专知会员服务
17+阅读 · 2025年5月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员