Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent - 专知论文

会员服务 ·

0

梯度 · 在线 · 随机梯度下降 · 情境 · 赌博机 ·

Online Statistical Inference for Contextual Bandits via Stochastic Gradient Descent

翻译：基于随机梯度下降的情境赌博机在线统计推断

Xiangyu Chang,Xi Chen,Zehua Lai,He Li,Zhihong Liu,Yichen Zhang

With the fast development of big data, learning the optimal decision rule by recursively updating it and making online decisions has been easier than before. We study the online statistical inference of model parameters in a contextual bandit framework of sequential decision-making. We propose a general framework for an online and adaptive data collection environment that can update decision rules via weighted stochastic gradient descent. We allow different weighting schemes of the stochastic gradient and establish the asymptotic normality of the parameter estimator. Our proposed estimator significantly improves the asymptotic efficiency over the previous averaged SGD approach via inverse probability weights. We also conduct an optimality analysis on the weights in a linear regression setting. We provide a Bahadur representation of the proposed estimator and show that the remainder term in the Bahadur representation entails a slower convergence rate compared to classical SGD due to the adaptive data collection.

翻译：随着大数据的快速发展，通过递归更新决策规则并在线决策来学习最优策略已变得比以往更加容易。我们在序列决策的情境赌博机框架下研究模型参数的在线统计推断。我们提出了一种适用于在线自适应数据收集环境的通用框架，该框架可通过加权随机梯度下降更新决策规则。我们允许随机梯度采用不同的加权方案，并建立了参数估计量的渐近正态性。与先前基于逆概率权重的平均随机梯度下降方法相比，我们提出的估计量显著提升了渐近效率。我们还在线性回归设定下对权重进行了最优性分析。我们给出了所提估计量的巴哈杜尔表示，并证明由于自适应数据收集的特性，巴哈杜尔表示中的余项比经典随机梯度下降具有更慢的收敛速率。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

28+阅读 · 2024年5月29日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

专知会员服务

35+阅读 · 2022年6月26日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

苏宁易购基于机器学习预测流量波动趋势的实践经验

苏宁易购基于机器学习预测流量波动趋势的实践经验

AI前线

15+阅读 · 2019年10月17日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

Online Prediction of Stochastic Sequences with High Probability Regret Bounds

Arxiv

0+阅读 · 2月18日

Convergence rates of random-order best-response dynamics in public good games on networks

Arxiv

0+阅读 · 2月17日

Linear Bandits beyond Inner Product Spaces, the case of Bandit Optimal Transport

Arxiv

0+阅读 · 2月17日

Online Tensor Inference

Arxiv

0+阅读 · 2月12日

Bayesian Inference of Contextual Bandit Policies via Empirical Likelihood

Arxiv

0+阅读 · 2月11日

Taming the Monster Every Context: Complexity Measure and Unified Framework for Offline-Oracle Efficient Contextual Bandits

Arxiv

0+阅读 · 2月10日

On Randomized Algorithms in Online Strategic Classification

Arxiv

0+阅读 · 2月5日

High-order Accurate Inference on Manifolds

Arxiv

0+阅读 · 1月31日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

随机梯度下降

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

1+阅读 · 今天16:07

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

0+阅读 · 今天16:04

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

5+阅读 · 今天14:49

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

8+阅读 · 今天14:36

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

5+阅读 · 今天14:29

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

2+阅读 · 今天14:22

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

3+阅读 · 今天14:12

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

14+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

8+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

20+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

16+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

7+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

12+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

8+阅读 · 6月1日

相关VIP内容

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

28+阅读 · 2024年5月29日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

【伦敦大学皇家霍洛威学院博士论文】机器学习概率预测，171页pdf

专知会员服务

35+阅读 · 2022年6月26日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

苏宁易购基于机器学习预测流量波动趋势的实践经验

苏宁易购基于机器学习预测流量波动趋势的实践经验

AI前线

15+阅读 · 2019年10月17日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

Online Prediction of Stochastic Sequences with High Probability Regret Bounds

Arxiv

0+阅读 · 2月18日

Convergence rates of random-order best-response dynamics in public good games on networks

Arxiv

0+阅读 · 2月17日

Linear Bandits beyond Inner Product Spaces, the case of Bandit Optimal Transport

Arxiv

0+阅读 · 2月17日

Online Tensor Inference

Arxiv

0+阅读 · 2月12日

Bayesian Inference of Contextual Bandit Policies via Empirical Likelihood

Arxiv

0+阅读 · 2月11日

Taming the Monster Every Context: Complexity Measure and Unified Framework for Offline-Oracle Efficient Contextual Bandits

Arxiv

0+阅读 · 2月10日

On Randomized Algorithms in Online Strategic Classification

Arxiv

0+阅读 · 2月5日

High-order Accurate Inference on Manifolds

Arxiv

0+阅读 · 1月31日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations

Arxiv

0+阅读 · 1月22日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员