In-context reinforcement learning (ICRL) promises fast adaptation to unseen environments without parameter updates, but current methods either cannot improve beyond the training distribution or require near-optimal data, limiting practical adoption. We introduce SPICE, a Bayesian ICRL method that learns a prior over Q-values via deep ensemble and updates this prior at test-time using in-context information through Bayesian updates. To recover from poor priors resulting from training on sub-optimal data, our online inference follows an Upper-Confidence Bound rule that favours exploration and adaptation. We prove that SPICE achieves regret-optimal behaviour in both stochastic bandits and finite-horizon MDPs, even when pretrained only on suboptimal trajectories. We validate these findings empirically across bandit and control benchmarks. SPICE achieves near-optimal decisions on unseen tasks, substantially reduces regret compared to prior ICRL and meta-RL approaches while rapidly adapting to unseen tasks and remaining robust under distribution shift.


翻译:上下文强化学习(ICRL)有望在无需参数更新的情况下快速适应未见环境,但现有方法要么无法超越训练分布进行改进,要么需要接近最优的数据,这限制了其实际应用。我们提出了SPICE,一种贝叶斯ICRL方法,它通过深度集成学习Q值的先验分布,并在测试时通过贝叶斯更新利用上下文信息更新该先验。为了从基于次优数据训练导致的较差先验中恢复,我们的在线推理遵循上置信界规则,该规则鼓励探索与适应。我们证明,即使在仅使用次优轨迹进行预训练的情况下,SPICE在随机多臂赌博机和有限时域马尔可夫决策过程中均能实现遗憾最优的行为。我们在赌博机和控制基准测试中实证验证了这些发现。SPICE在未见任务上实现了接近最优的决策,与先前的ICRL和元强化学习方法相比显著降低了遗憾,同时能快速适应未见任务并在分布偏移下保持鲁棒性。

0
下载
关闭预览

相关内容

【博士论文】基于多模态基础模型的上下文学习
专知会员服务
22+阅读 · 2025年12月17日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
【经典书】贝叶斯强化学习概述,147页pdf
专知会员服务
115+阅读 · 2021年11月21日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
129+阅读 · 2020年7月20日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
10+阅读 · 2022年1月16日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员