We study stochastic multi-armed bandits in which the objective is a statistical functional of the long-run reward distribution, rather than expected reward alone. Under mild continuity assumptions, we show that the infinite-horizon problem reduces to optimizing over stationary mixed policies: each weight vector \(w\) on the simplex induces a mixture law \(P^w\), and performance is measured by the concave utility \(U(w)=\mathfrak U(P^w)\). For differentiable statistical utilities, we use influence-function calculus to derive stochastic gradient estimators from bandit feedback. This leads to an entropic mirror-ascent algorithm on a truncated simplex, implemented through multiplicative-weights updates and plug-in estimates of the influence function. We establish regret bounds that separate the mirror-ascent optimization error from the bias caused by estimating the influence function. The framework is developed for general concave distributional utilities and illustrated through variance and Wasserstein objectives, with numerical experiments comparing exact and plug-in influence-function implementations.


翻译:我们研究随机多臂赌博机问题,其目标不仅是期望奖励,更是长期奖励分布的统计泛函。在温和的连续性假设下,我们证明无限时域问题可简化为对平稳混合策略的优化:单纯形上的每个权重向量 \(w\) 诱导一个混合分布 \(P^w\),性能由凹性效用 \(U(w)=\mathfrak U(P^w)\) 度量。对于可微的统计效用函数,我们利用影响函数微积分从赌博机反馈中推导出随机梯度估计量。由此,我们在截断单纯形上提出一种熵镜像下降算法,该算法通过乘法权重更新和影响函数的插件估计实现。我们建立的遗憾上界将镜像下降的优化误差与估计影响函数引起的偏差分离开来。该框架适用于一般凹性分布效用函数,并通过方差和Wasserstein目标进行说明,同时通过数值实验比较了精确与插件影响函数实现的性能。

0
下载
关闭预览

相关内容

【干货书】凸随机优化,320页pdf
专知会员服务
94+阅读 · 2022年9月16日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【干货书】凸随机优化,320页pdf
专知会员服务
94+阅读 · 2022年9月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员