The convergence analysis of online learning algorithms is central to machine learning theory, where the last-iterate convergence is particularly important, as it captures the learner's actual decisions and describes the evolution of the learning process over time. However, in multi-armed bandits, most existing algorithmic analyses mainly focus on the order of regret, while the last-iterate (simple regret) convergence rate remains less explored -- especially for the widely studied Follow-the-Regularized-Leader (FTRL) algorithms. Recently, FTRL with the $1/2$-Tsallis entropy regularizer $Ψ(p) = -4\sum_{i=1}^d \sqrt{p_i}$ (the $1/2$-Tsallis-INF algorithm, by arXiv:1807.07623) was shown to achieve logarithmic regret in stochastic bandits. Nevertheless, its last-iterate convergence rate has not yet been studied. Intuitively, logarithmic regret should correspond to a $t^{-1}$ last-iterate convergence rate. This paper studies the $1/2$-Tsallis-INF algorithm and partially confirms this intuition through theoretical analysis, showing that the Bregman divergence, defined by $Ψ(p)$, between the point mass on the optimal arm and the probability distribution over the arm set obtained at iteration $t$, decays at a rate of $t^{-1/2}$.


翻译:在线学习算法的收敛分析是机器学习理论的核心问题,其中最后迭代收敛尤为重要,因为它刻画了学习器实际做出的决策并描述了学习过程随时间的演化。然而,在多臂Bandits问题中,现有算法分析主要关注遗憾的上界,而最后迭代(简单遗憾)的收敛速率却较少被探索——尤其是对于广泛研究的FTRL(Follow-the-Regularized-Leader)算法。近期,采用$1/2$-Tsallis熵正则化器$Ψ(p) = -4\sum_{i=1}^d \sqrt{p_i}$的FTRL算法(即$1/2$-Tsallis-INF算法,参见arXiv:1807.07623)被证明在随机Bandits中可实现对数遗憾。尽管如此,其最后迭代收敛速率尚未被研究。直观上,对数遗憾应对应于$t^{-1}$的最后迭代收敛速率。本文通过理论分析部分证实了这一直觉,研究表明:由$Ψ(p)$定义的Bregman散度——即最优臂的点质量与第$t$次迭代获得的臂集概率分布之间的差异——以$t^{-1/2}$的速率衰减。

0
下载
关闭预览

相关内容

【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
【ICML2022】通过能量最小化学习迭代推理
专知会员服务
26+阅读 · 2022年7月3日
专知会员服务
75+阅读 · 2020年12月7日
【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示
专知会员服务
23+阅读 · 2020年10月13日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
最大熵原理(一)
深度学习探索
12+阅读 · 2017年8月3日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关资讯
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
最大熵原理(一)
深度学习探索
12+阅读 · 2017年8月3日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员