We prove that Thompson sampling exhibits $\tilde{O}(σd \sqrt{T} + d r \sqrt{\mathrm{Tr}(Σ_0)})$ Bayesian regret in the linear-Gaussian bandit with a $\mathcal{N}(μ_0, Σ_0)$ prior distribution on the coefficients, where $d$ is the dimension, $T$ is the time horizon, $r$ is the maximum $\ell_2$ norm of the actions, and $σ^2$ is the noise variance. In contrast to existing regret bounds, this shows that to within logarithmic factors, the prior-dependent ``burn-in'' term $d r \sqrt{\mathrm{Tr}(Σ_0)}$ decouples additively from the minimax (long run) regret $σd \sqrt{T}$. Previous regret bounds exhibit a multiplicative dependence on these terms. We establish these results via a new ``elliptical potential'' lemma, and also provide a lower bound indicating that the burn-in term is unavoidable.


翻译:我们证明了在线性高斯赌博机中,当系数服从先验分布 $\mathcal{N}(μ_0, Σ_0)$ 时,Thompson 采样算法具有 $\tilde{O}(σd \sqrt{T} + d r \sqrt{\mathrm{Tr}(Σ_0)})$ 的贝叶斯遗憾,其中 $d$ 为维度,$T$ 为时间范围,$r$ 为动作的最大 $\ell_2$ 范数,$σ^2$ 为噪声方差。与现有遗憾界相比,这表明在对数因子范围内,先验依赖的“预热”项 $d r \sqrt{\mathrm{Tr}(Σ_0)}$ 与极小极大(长期)遗憾 $σd \sqrt{T}$ 以加法形式解耦。先前的遗憾界则表现出这些项之间的乘法依赖关系。我们通过一个新的“椭圆势”引理建立了这些结果,并提供了一个下界表明该预热项是不可避免的。

0
下载
关闭预览

相关内容

《时空光子液态和极限学习机》
专知会员服务
25+阅读 · 2023年7月3日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
概率论之概念解析:边缘化(Marginalisation)
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
《时空光子液态和极限学习机》
专知会员服务
25+阅读 · 2023年7月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员