We study the problem of dynamic batch learning in high-dimensional sparse linear contextual bandits, where a decision maker can only adapt decisions at a batch level. In particular, the decision maker, only observing rewards at the end of each batch, dynamically decides how many individuals to include in the next batch (at the current batch's end) and what personalized action-selection scheme to adopt within the batch. Such batch constraints are ubiquitous in a variety of practical contexts, including personalized product offerings in marketing and medical treatment selection in clinical trials. We characterize the fundamental learning limit in this problem via a novel lower bound analysis and provide a simple, exploration-free algorithm that uses the LASSO estimator, which achieves the minimax optimal performance characterized by the lower bound (up to log factors). To our best knowledge, our work provides the first inroad into a rigorous understanding of dynamic batch learning with high-dimensional covariates. We also demonstrate the efficacy of our algorithm on both synthetic data and the Warfarin medical dosing data. The empirical results show that with three batches (hence only two opportunities to adapt), our algorithm already performs comparably (in terms of statistical performance) to the state-of-the-art fully online high-dimensional linear contextual bandits algorithm. As an added bonus, since our algorithm operates in batches, it is orders of magnitudes faster than fully online learning algorithms. As such, our algorithm provides a desirable candidate for practical data-driven personalized decision making problems, where limited adaptivity is often a hard constraint.


翻译:我们研究在高度分散的线性背景土匪中动态批量学习的问题,即决策人只能调整批量一级的决定。特别是,决策者,只观察每批末端的奖励,动态地决定下批(目前批尾端)要包括多少个人,以及批量中要采用什么个性化的行动选择办法。这些批量限制在各种实际环境中普遍存在,包括销售和临床试验中医疗治疗选择中的个人化产品提供。我们通过新颖的较低约束分析来描述这一问题的基本学习限度,并提供一个简单、无探索的算法,使用LASSO的估量器,该算法将实现下批量(目前批尾端)中最优性的表现。根据我们的最佳知识,我们的工作为严格了解动态批量学习与高维度变异性。我们还展示了我们关于合理合成数据和Warfarinal In medicial dos data的算法的功效。实验结果显示,用三批次(因为只有两批次个人的硬度,而使在线的算算法能够完全调整,我们的直线性算的递进进级算数据,因此,我们不断的递化的递进进进进进化的算法的算法是完全的升级的升级的升级的逻辑,我们的一个高级的逻辑要求。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年7月15日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
专知会员服务
162+阅读 · 2020年1月16日
【新书】Python编程基础,669页pdf
专知会员服务
198+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
A Dataset for Answering Time-Sensitive Questions
Arxiv
0+阅读 · 2021年9月3日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
专知会员服务
32+阅读 · 2021年7月15日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
专知会员服务
162+阅读 · 2020年1月16日
【新书】Python编程基础,669页pdf
专知会员服务
198+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员