We propose an algorithmic framework, Offline Estimation to Decisions (OE2D), that reduces contextual bandit learning with general reward function approximation to offline regression. The framework allows near-optimal regret for contextual bandits with large action spaces with $O(log(T))$ calls to an offline regression oracle over $T$ rounds, and makes $O(loglog(T))$ calls when $T$ is known. The design of OE2D algorithm generalizes Falcon~\citep{simchi2022bypassing} and its linear reward version~\citep[][Section 4]{xu2020upper} in that it chooses an action distribution that we term ``exploitative F-design'' that simultaneously guarantees low regret and good coverage that trades off exploration and exploitation. Central to our regret analysis is a new complexity measure, the Decision-Offline Estimation Coefficient (DOEC), which we show is bounded in bounded Eluder dimension per-context and smoothed regret settings. We also establish a relationship between DOEC and Decision Estimation Coefficient (DEC)~\citep{foster2021statistical}, bridging the design principles of offline- and online-oracle efficient contextual bandit algorithms for the first time.


翻译:我们提出了一个算法框架——离线估计到决策(OE2D),它将具有一般奖励函数逼近的情境赌博学习问题约简为离线回归问题。该框架允许在大动作空间的情境赌博中实现近乎最优的遗憾,在$T$轮中仅需调用离线回归预言机$O(log(T))$次,且当$T$已知时仅需$O(loglog(T))$次调用。OE2D算法的设计推广了Falcon~\citep{simchi2022bypassing}及其线性奖励版本~\citep[][第4节]{xu2020upper},它选择了一种我们称之为“利用性F设计”的动作分布,该分布同时保证了低遗憾和良好的覆盖度,从而在探索与利用之间取得平衡。我们遗憾分析的核心是一个新的复杂度度量——决策-离线估计系数(DOEC),我们证明了在每情境有界埃尔鲁德维度和平滑遗憾设置下该系数是有界的。我们还建立了DOEC与决策估计系数(DEC)~\citep{foster2021statistical}之间的联系,首次为离线和在线预言机高效的情境赌博算法搭建了设计原则的桥梁。

0
下载
关闭预览

相关内容

《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
57+阅读 · 2025年11月18日
《基于信念的决策建模计算框架》141页
专知会员服务
70+阅读 · 2024年4月27日
神经模型中组合求解器和离散分布的集成,77页ppt
专知会员服务
23+阅读 · 2022年12月30日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
深度学习框架大PK:TNN决战MNN,ncnn依旧经典
新智元
10+阅读 · 2020年7月3日
基于python的开源量化交易,量化投资架构
运维帮
15+阅读 · 2018年7月5日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
9+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
57+阅读 · 2025年11月18日
《基于信念的决策建模计算框架》141页
专知会员服务
70+阅读 · 2024年4月27日
神经模型中组合求解器和离散分布的集成,77页ppt
专知会员服务
23+阅读 · 2022年12月30日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员