Linear contextual bandit is an important class of sequential decision making problems with a wide range of applications to recommender systems, online advertising, healthcare, and many other machine learning related tasks. While there is a lot of prior research, tight regret bounds of linear contextual bandit with infinite action sets remain open. In this paper, we address this open problem by considering the linear contextual bandit with (changing) infinite action sets. We prove a regret upper bound on the order of $O(\sqrt{d^2T\log T})\times \text{poly}(\log\log T)$ where $d$ is the domain dimension and $T$ is the time horizon. Our upper bound matches the previous lower bound of $\Omega(\sqrt{d^2 T\log T})$ in [Li et al., 2019] up to iterated logarithmic terms.


翻译:线性背景土匪是一个重要的顺序决策问题类别, 涉及到推荐系统、 在线广告、 医疗保健和其他许多机器学习相关任务的多种应用。 虽然有许多先前的研究, 但线性背景土匪与无限动作组的严格遗憾界限仍然开放 。 在本文中, 我们通过考虑线性背景土匪与( 更改) 无限动作组来解决这个问题 。 我们证明对 $O (\\ sqrt{ d2T\log T}\ t)\ times\ text{poly} (\log\log t) (poly) (\log\ t) ($d) 是域维度, $T$ 是时间范围。 我们的上边框匹配了在 [ Li 和 al, 2019] 至 迭代对数术语中的 $\ Omega (\ sqrt{ d ⁇ 2 T\log T} 之前较低的约束值。

0
下载
关闭预览

相关内容

专知会员服务
78+阅读 · 2021年3月16日
最新《图理论》笔记书,98页pdf
专知会员服务
76+阅读 · 2020年12月27日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
87+阅读 · 2020年12月5日
专知会员服务
54+阅读 · 2020年11月3日
专知会员服务
124+阅读 · 2020年9月8日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
50+阅读 · 2019年9月24日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月23日
VIP会员
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
专知会员服务
78+阅读 · 2021年3月16日
最新《图理论》笔记书,98页pdf
专知会员服务
76+阅读 · 2020年12月27日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
87+阅读 · 2020年12月5日
专知会员服务
54+阅读 · 2020年11月3日
专知会员服务
124+阅读 · 2020年9月8日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
50+阅读 · 2019年9月24日
相关资讯
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
LibRec 精选:连通知识图谱与推荐系统
LibRec智能推荐
3+阅读 · 2018年8月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员