A major research direction in contextual bandits is to develop algorithms that are computationally efficient, yet support flexible, general-purpose function approximation. Algorithms based on modeling rewards have shown strong empirical performance, but typically require a well-specified model, and can fail when this assumption does not hold. Can we design algorithms that are efficient and flexible, yet degrade gracefully in the face of model misspecification? We introduce a new family of oracle-efficient algorithms for $\varepsilon$-misspecified contextual bandits that adapt to unknown model misspecification -- both for finite and infinite action settings. Given access to an online oracle for square loss regression, our algorithm attains optimal regret and -- in particular -- optimal dependence on the misspecification level, with no prior knowledge. Specializing to linear contextual bandits with infinite actions in $d$ dimensions, we obtain the first algorithm that achieves the optimal $O(d\sqrt{T} + \varepsilon\sqrt{d}T)$ regret bound for unknown misspecification level $\varepsilon$. On a conceptual level, our results are enabled by a new optimization-based perspective on the regression oracle reduction framework of Foster and Rakhlin, which we anticipate will find broader use.


翻译:环境强盗的主要研究方向是开发计算效率高的算法,但支持灵活、通用功能近似。基于模型奖励的算法已经表现出很强的经验性表现,但通常需要精确的模型,如果这一假设不成立,就会失败。我们能否设计高效和灵活的算法,但面对模型的偏差而优雅地降解?我们为美元和瓦列普西隆特特特奇特特土匪引入一个新的算法组合,以适应未知的模型偏差 -- -- 无论是有限的还是无限的行动设置。鉴于在平方损失回归方面可以访问在线或触角,我们的算法会取得最佳的遗憾,特别是最佳地依赖偏差的定位水平,而事先没有这方面的知识。我们能否设计出一个高效和灵活的算法,但面对模型的偏差,我们获得了第一个实现最佳的 $( dqqrt{T} + varepsilon\ sqrt{t}T) 奇特的算法组合,对于未知的误差分化水平 $\ vareplon 或无限的动作设置。在概念上,我们通过一个更广义的递化框架,我们的结果将会通过一个新的递减变后得到实现。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
114+阅读 · 2021年4月17日
专知会员服务
52+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
128+阅读 · 2020年11月20日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
41+阅读 · 2020年7月23日
已删除
将门创投
4+阅读 · 2018年1月19日
Arxiv
0+阅读 · 2021年9月15日
Arxiv
0+阅读 · 2021年9月13日
Arxiv
0+阅读 · 2021年9月12日
Arxiv
0+阅读 · 2021年9月12日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
2+阅读 · 53分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
已删除
将门创投
4+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员