We study the trade-off between expectation and tail risk for regret distribution in the stochastic multi-armed bandit problem. We fully characterize the interplay among three desired properties for policy design: worst-case optimality, instance-dependent consistency, and light-tailed risk. We show how the order of expected regret exactly affects the decaying rate of the regret tail probability for both the worst-case and instance-dependent scenario. A novel policy is proposed to characterize the optimal regret tail probability for any regret threshold. Concretely, for any given $\alpha\in[1/2, 1)$ and $\beta\in[0, \alpha]$, our policy achieves a worst-case expected regret of $\tilde O(T^\alpha)$ (we call it $\alpha$-optimal) and an instance-dependent expected regret of $\tilde O(T^\beta)$ (we call it $\beta$-consistent), while enjoys a probability of incurring an $\tilde O(T^\delta)$ regret ($\delta\geq\alpha$ in the worst-case scenario and $\delta\geq\beta$ in the instance-dependent scenario) that decays exponentially with a polynomial $T$ term. Such decaying rate is proved to be best achievable. Moreover, we discover an intrinsic gap of the optimal tail rate under the instance-dependent scenario between whether the time horizon $T$ is known a priori or not. Interestingly, when it comes to the worst-case scenario, this gap disappears. Finally, we extend our proposed policy design to (1) a stochastic multi-armed bandit setting with non-stationary baseline rewards, and (2) a stochastic linear bandit setting. Our results reveal insights on the trade-off between regret expectation and regret tail risk for both worst-case and instance-dependent scenarios, indicating that more sub-optimality and inconsistency leave space for more light-tailed risk of incurring a large regret, and that knowing the planning horizon in advance can make a difference on alleviating tail risks.


翻译:我们研究了随机多臂赌博机问题中遗憾分布在期望与尾部风险之间的权衡关系。我们完整刻画了策略设计所需的三项理想性质之间的相互作用:最坏情形最优性、实例依赖一致性和轻尾风险。我们展示了在最坏情形与实例依赖场景下,期望遗憾的阶数如何精确影响遗憾尾概率的衰减速率。针对任意遗憾阈值,我们提出一种新策略来刻画最优遗憾尾概率。具体而言,对于任意给定的$\alpha\in[1/2, 1)$和$\beta\in[0, \alpha]$,该策略可实现最坏情形期望遗憾为$\tilde O(T^\alpha)$(称为$\alpha$-最优)和实例依赖期望遗憾为$\tilde O(T^\beta)$(称为$\beta$-一致性),同时能够以与$T$的多项式项指数衰减的概率,获得$\tilde O(T^\delta)$的遗憾(最坏情形下$\delta\geq\alpha$,实例依赖情形下$\delta\geq\beta$)。该衰减速率被证明是最优可达的。此外,我们发现在实例依赖场景中,关于时间范围$T$是否预先已知,最优尾部速率存在本质差异。有趣的是,在最坏情形场景中这一差异消失。最后,我们将所提出的策略设计拓展至:(1)具有非平稳基准奖励的随机多臂赌博机设定;(2)随机线性赌博机设定。我们的研究结果揭示了在最坏情形与实例依赖场景中遗憾期望与遗憾尾部风险之间的权衡规律,表明更高的次优性与不一致性会为承受大遗憾事件的轻尾风险留出空间,且预先知道规划时域有助于缓解尾部风险。

0
下载
关闭预览

相关内容

【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
131+阅读 · 2022年1月16日
专知会员服务
45+阅读 · 2020年12月18日
专知会员服务
52+阅读 · 2020年12月14日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
112+阅读 · 2020年11月12日
从ICML 2022看域泛化(Domain Generalization)最新进展
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月25日
Arxiv
0+阅读 · 2023年5月24日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员