With the fast development of big data, learning the optimal decision rule by recursively updating it and making online decisions has been easier than before. We study the online statistical inference of model parameters in a contextual bandit framework of sequential decision-making. We propose a general framework for an online and adaptive data collection environment that can update decision rules via weighted stochastic gradient descent. We allow different weighting schemes of the stochastic gradient and establish the asymptotic normality of the parameter estimator. Our proposed estimator significantly improves the asymptotic efficiency over the previous averaged SGD approach via inverse probability weights. We also conduct an optimality analysis on the weights in a linear regression setting. We provide a Bahadur representation of the proposed estimator and show that the remainder term in the Bahadur representation entails a slower convergence rate compared to classical SGD due to the adaptive data collection.


翻译:随着大数据的快速发展,通过递归更新决策规则并在线决策来学习最优策略已变得比以往更加容易。我们在序列决策的情境赌博机框架下研究模型参数的在线统计推断。我们提出了一种适用于在线自适应数据收集环境的通用框架,该框架可通过加权随机梯度下降更新决策规则。我们允许随机梯度采用不同的加权方案,并建立了参数估计量的渐近正态性。与先前基于逆概率权重的平均随机梯度下降方法相比,我们提出的估计量显著提升了渐近效率。我们还在线性回归设定下对权重进行了最优性分析。我们给出了所提估计量的巴哈杜尔表示,并证明由于自适应数据收集的特性,巴哈杜尔表示中的余项比经典随机梯度下降具有更慢的收敛速率。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
概率论之概念解析:边缘化(Marginalisation)
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 1月31日
VIP会员
相关VIP内容
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员