Efficient Planning in Reinforcement Learning via Model Introspection - 专知论文

会员服务 ·

0

强化学习 · 算法 · 形式化 · 合成 · 分析 ·

Efficient Planning in Reinforcement Learning via Model Introspection

翻译：强化学习中基于模型内省的高效规划

Reinforcement learning and classical planning are typically seen as two distinct problems, with differing formulations necessitating different solutions. Yet, when humans are given a task, regardless of the way it is specified, they can often derive the additional information needed to solve the problem efficiently. The key to this ability is introspection: by reasoning about their internal models of the problem, humans directly synthesize additional task-relevant information. In this paper, we propose that this introspection can be thought of as program analysis. We discuss examples of how this approach can be applied to various kinds of models used in reinforcement learning. We then describe an algorithm that enables efficient goal-oriented planning over the class of models used in relational reinforcement learning, demonstrating a novel link between reinforcement learning and classical planning.

翻译：强化学习与经典规划通常被视为两个不同的问题，其差异化的形式化表述需要不同的解决方案。然而，当人类被赋予一项任务时，无论其描述方式如何，他们通常能够推导出有效解决问题所需的额外信息。这种能力的关键在于内省：通过推理其内部问题模型，人类直接合成出与任务相关的额外信息。在本文中，我们提出这种内省过程可被视为程序分析。我们讨论了该方法如何应用于强化学习中使用的各类模型，并举例说明。随后，我们描述了一种算法，该算法能够在关系强化学习所使用的模型类别上实现高效的目标导向规划，从而揭示了强化学习与经典规划之间的一种新颖联系。

0

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

专知会员服务

34+阅读 · 2024年12月18日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

84+阅读 · 2023年1月30日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【伯克利，基于模型的强化学习：理论与实践】《Model-Based Reinforcement Learning:Theory and Practice》，Michael Janner

【伯克利，基于模型的强化学习：理论与实践】《Model-Based Reinforcement Learning:Theory and Practice》，Michael Janner

专知会员服务

35+阅读 · 2019年12月12日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Arxiv

0+阅读 · 3月3日

Model Predictive Adversarial Imitation Learning for Planning from Observation

Arxiv

0+阅读 · 3月2日

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

Arxiv

0+阅读 · 2月27日

Meta-Learning and Meta-Reinforcement Learning - Tracing the Path towards DeepMind's Adaptive Agent

Arxiv

0+阅读 · 2月23日

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Arxiv

0+阅读 · 2月19日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

专知会员服务

34+阅读 · 2024年12月18日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

84+阅读 · 2023年1月30日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【伯克利，基于模型的强化学习：理论与实践】《Model-Based Reinforcement Learning:Theory and Practice》，Michael Janner

【伯克利，基于模型的强化学习：理论与实践】《Model-Based Reinforcement Learning:Theory and Practice》，Michael Janner

专知会员服务

35+阅读 · 2019年12月12日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Arxiv

0+阅读 · 3月3日

Model Predictive Adversarial Imitation Learning for Planning from Observation

Arxiv

0+阅读 · 3月2日

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

Arxiv

0+阅读 · 2月27日

Meta-Learning and Meta-Reinforcement Learning - Tracing the Path towards DeepMind's Adaptive Agent

Arxiv

0+阅读 · 2月23日

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Arxiv

0+阅读 · 2月19日

Experiential Reinforcement Learning

Arxiv

0+阅读 · 2月15日

ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

Arxiv

0+阅读 · 2月10日

Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization

Arxiv

0+阅读 · 1月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员