This paper studies the optimality and complexity of Follow-the-Perturbed-Leader (FTPL) policy in $m$-set semi-bandit problems. FTPL has been studied extensively as a promising candidate of an efficient algorithm with favorable regret for adversarial combinatorial semi-bandits. Nevertheless, the optimality of FTPL has still been unknown unlike Follow-the-Regularized-Leader (FTRL) whose optimality has been proved for various tasks of online learning. In this paper, we extend the analysis of FTPL with geometric resampling (GR) to $m$-set semi-bandits, which is a special case of combinatorial semi-bandits, showing that FTPL with Fréchet and Pareto distributions with certain parameters achieves the best possible regret of $O(\sqrt{mdT})$ in adversarial setting. We also show that FTPL with Fréchet and Pareto distributions with a certain parameter achieves a logarithmic regret for stochastic setting, meaning the Best-of-Both-Worlds optimality of FTPL for $m$-set semi-bandit problems. Furthermore, we extend the conditional geometric resampling to $m$-set semi-bandits for efficient loss estimation in FTPL, reducing the computational complexity from $O(d^2)$ of the original geometric resampling to $O(md(\log(d/m)+1))$ without sacrificing the regret performance.


翻译:本文研究了$m$集半赌博问题中跟随扰动领导者(FTPL)策略的最优性与计算复杂度。FTPL作为一种在对抗性组合半赌博问题中具有优越遗憾界的高效算法,已得到广泛研究。然而,与已在多种在线学习任务中被证明最优性的跟随正则化领导者(FTRL)不同,FTPL的最优性始终未被证实。本文通过将几何重采样(GR)的FTPL分析扩展至$m$集半赌博问题(组合半赌博问题的特例),证明采用特定参数的Fréchet分布与Pareto分布的FTPL在对抗性环境下可实现$O(\sqrt{mdT})$的最优遗憾界。同时,我们证明采用特定参数的Fréchet分布与Pareto分布的FTPL在随机环境下可实现对数遗憾界,这意味着FTPL在$m$集半赌博问题上达到了最佳双世界最优性。此外,我们将条件几何重采样技术扩展至$m$集半赌博问题,以提升FTPL中损失估计的效率,在保持遗憾性能不变的前提下,将计算复杂度从原始几何重采样的$O(d^2)$降低至$O(md(\log(d/m)+1))$。

0
下载
关闭预览

相关内容

【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
37+阅读 · 2023年8月31日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
从最大似然到EM算法:一致的理解方式
PaperWeekly
19+阅读 · 2018年3月19日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
1+阅读 · 35分钟前
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
1+阅读 · 45分钟前
人工智能及其在海军行动中的整合(综述)
专知会员服务
0+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
16+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
22+阅读 · 4月12日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员