Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale - 专知论文

会员服务 ·

0

INFORMS · Learning · 在线 · 数据集 · Performer ·

2023 年 3 月 20 日

Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale

翻译：桥接模仿学习和在线强化学习：一个乐观的故事

Botao Hao,Rahul Jain,Dengwang Tang,Zheng Wen

from arxiv, Alphabetical order. Corresponding to Rahul Jain

In this paper, we address the following problem: Given an offline demonstration dataset from an imperfect expert, what is the best way to leverage it to bootstrap online learning performance in MDPs. We first propose an Informed Posterior Sampling-based RL (iPSRL) algorithm that uses the offline dataset, and information about the expert's behavioral policy used to generate the offline dataset. Its cumulative Bayesian regret goes down to zero exponentially fast in N, the offline dataset size if the expert is competent enough. Since this algorithm is computationally impractical, we then propose the iRLSVI algorithm that can be seen as a combination of the RLSVI algorithm for online RL, and imitation learning. Our empirical results show that the proposed iRLSVI algorithm is able to achieve significant reduction in regret as compared to two baselines: no offline data, and offline dataset but used without information about the generative policy. Our algorithm bridges online RL and imitation learning for the first time.

翻译：本文研究以下问题：给定来自非完美专家的离线演示数据集，如何最好地利用它来启动马尔可夫决策过程中的在线学习性能。我们首先提出一种基于信息后验采样的强化学习（iPSRL）算法，该算法利用离线数据集以及用于生成该数据集的专家行为策略信息。如果专家足够胜任，其累积贝叶斯遗憾将以指数速度下降至零，下降速度取决于离线数据集大小N。由于该算法计算上不可行，我们随后提出iRLSVI算法，可视为在线强化学习RLSVI算法与模仿学习的结合。我们的实验结果表明，与两种基线方法（不使用离线数据、使用离线数据集但未利用生成策略信息）相比，所提出的iRLSVI算法能够显著降低遗憾。我们的算法首次在在线强化学习与模仿学习之间建立了桥梁。

0

相关内容

INFORMS

《计算机信息》杂志发表高质量的论文，扩大了运筹学和计算的范围，寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文，以及描述新的和有用的软件工具的论文。官网链接：https://pubsonline.informs.org/journal/ijoc

【AAAI2023】基于序图的因果结构强化学习

【AAAI2023】基于序图的因果结构强化学习

专知会员服务

24+阅读 · 2022年11月25日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【SIGIR2021教程】基于强化学习的信息检索

专知会员服务

29+阅读 · 2021年7月20日

【DeepMind】强化学习教程，83页ppt

【DeepMind】强化学习教程，83页ppt

专知会员服务

160+阅读 · 2020年8月7日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

86+阅读 · 2020年2月18日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

极市平台

2+阅读 · 2022年11月3日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基底型乳腺癌干细胞信号传导网络结构建模

国家自然科学基金

0+阅读 · 2014年12月31日

在线库存及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线时间序列搜索的算法交易策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模Job shop排序问题渐近最优算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

非负二次函数锥规划研究

国家自然科学基金

0+阅读 · 2011年12月31日

求解随机延迟微分方程的多步方法

国家自然科学基金

0+阅读 · 2009年12月31日

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

Arxiv

0+阅读 · 2023年5月12日

A unified framework for dataset shift diagnostics

Arxiv

0+阅读 · 2023年5月12日

Boosting Value Decomposition via Unit-Wise Attentive State Representation for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月12日

Optimizing Memory Mapping Using Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年5月11日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

Information Design in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月8日

A Survey on Transformers in Reinforcement Learning

Arxiv

31+阅读 · 2023年1月8日

Coding for Distributed Multi-Agent Reinforcement Learning

Arxiv

32+阅读 · 2021年1月7日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

Arxiv

80+阅读 · 2020年1月19日

VIP会员

文章信息

相关主题

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

4+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

5+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

11+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

9+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

12+阅读 · 7月26日

相关VIP内容

【AAAI2023】基于序图的因果结构强化学习

【AAAI2023】基于序图的因果结构强化学习

专知会员服务

24+阅读 · 2022年11月25日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【SIGIR2021教程】基于强化学习的信息检索

专知会员服务

29+阅读 · 2021年7月20日

【DeepMind】强化学习教程，83页ppt

【DeepMind】强化学习教程，83页ppt

专知会员服务

160+阅读 · 2020年8月7日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

86+阅读 · 2020年2月18日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

极市平台

2+阅读 · 2022年11月3日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning

Arxiv

0+阅读 · 2023年5月12日

A unified framework for dataset shift diagnostics

Arxiv

0+阅读 · 2023年5月12日

Boosting Value Decomposition via Unit-Wise Attentive State Representation for Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月12日

Optimizing Memory Mapping Using Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年5月11日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

Information Design in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2023年5月8日

A Survey on Transformers in Reinforcement Learning

Arxiv

31+阅读 · 2023年1月8日

Coding for Distributed Multi-Agent Reinforcement Learning

Arxiv

32+阅读 · 2021年1月7日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

A Survey of Reinforcement Learning Techniques: Strategies, Recent Development, and Future Directions

Arxiv

80+阅读 · 2020年1月19日

相关基金

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基底型乳腺癌干细胞信号传导网络结构建模

国家自然科学基金

0+阅读 · 2014年12月31日

在线库存及相关问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线时间序列搜索的算法交易策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模Job shop排序问题渐近最优算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

非负二次函数锥规划研究

国家自然科学基金

0+阅读 · 2011年12月31日

求解随机延迟微分方程的多步方法

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员