We investigate the fundamental problem of leveraging offline data to accelerate online reinforcement learning - a direction with strong potential but limited theoretical grounding. Our study centers on how to \emph{learn} and \emph{apply} value envelopes within this context. To this end, we introduce a principled two-stage framework: the first stage uses offline data to derive upper and lower bounds on value functions, while the second incorporates these learned bounds into online algorithms. Our method extends prior work by decoupling the upper and lower bounds, enabling more flexible and tighter approximations. In contrast to approaches that rely on fixed shaping functions, our envelopes are data-driven and explicitly modeled as random variables, with a filtration argument ensuring independence across phases. The analysis establishes high-probability regret bounds determined by two interpretable quantities, thereby providing a formal bridge between offline pre-training and online fine-tuning. Empirical results on tabular MDPs demonstrate substantial regret reductions compared with both UCBVI and prior methods while remaining competitive with related approaches.


翻译:我们研究了利用离线数据加速在线强化学习这一基础问题——该方向潜力巨大但缺乏理论支撑。我们的研究聚焦于如何在此背景下“学习”并“应用”值包络。为此,我们提出了一种原则性的两阶段框架:第一阶段利用离线数据推导值函数的上下界,第二阶段将这些学习到的界融入在线算法。我们的方法通过解耦上下界扩展了先前工作,从而实现了更灵活且更紧的逼近。与依赖固定塑形函数的方法不同,我们的包络是数据驱动的,并显式建模为随机变量,通过滤过论证保证了各阶段间的独立性。分析建立了由两个可解释量决定的高概率遗憾界,从而为离线预训练与在线微调之间提供了正式桥梁。在表格型MDP上的实验结果表明,与UCBVI及先前方法相比,我们的方法显著降低了遗憾值,同时与相关方法保持了竞争力。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】在线学习:优化、控制与学习理论
专知会员服务
31+阅读 · 2025年10月19日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
【经典书】在线学习与在线凸优化,90页pdf
专知会员服务
59+阅读 · 2021年10月10日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【普林斯顿博士论文】在线学习:优化、控制与学习理论
专知会员服务
31+阅读 · 2025年10月19日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
【经典书】在线学习与在线凸优化,90页pdf
专知会员服务
59+阅读 · 2021年10月10日
相关资讯
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员