Task Phasing: Automated Curriculum Learning from Demonstrations - 专知论文

会员服务 ·

0

演示 · 课程学习 · 课程 · 稀疏 · 代理控制 ·

2023 年 3 月 28 日

Task Phasing: Automated Curriculum Learning from Demonstrations

翻译：任务分阶段：基于示范的自动课程学习

Vaibhav Bajaj,Guni Sharon,Peter Stone

from arxiv, 7 pages main paper, 7 figures, 4 pages appendix. Submitted to AAAI 2023 Conference

Applying reinforcement learning (RL) to sparse reward domains is notoriously challenging due to insufficient guiding signals. Common RL techniques for addressing such domains include (1) learning from demonstrations and (2) curriculum learning. While these two approaches have been studied in detail, they have rarely been considered together. This paper aims to do so by introducing a principled task phasing approach that uses demonstrations to automatically generate a curriculum sequence. Using inverse RL from (suboptimal) demonstrations we define a simple initial task. Our task phasing approach then provides a framework to gradually increase the complexity of the task all the way to the target task, while retuning the RL agent in each phasing iteration. Two approaches for phasing are considered: (1) gradually increasing the proportion of time steps an RL agent is in control, and (2) phasing out a guiding informative reward function. We present conditions that guarantee the convergence of these approaches to an optimal policy. Experimental results on 3 sparse reward domains demonstrate that our task phasing approaches outperform state-of-the-art approaches with respect to asymptotic performance.

翻译：在稀疏奖励领域应用强化学习（RL）因缺乏足够的引导信号而极具挑战性。解决此类领域的常见RL技术包括：（1）从示范中学习；（2）课程学习。尽管这两种方法已得到详细研究，但鲜有将它们共同考虑。本文旨在通过引入一种基于原则的任务分阶段方法来实现这一目标，该方法利用示范自动生成课程序列。通过从（次优）示范中应用逆强化学习，我们定义了一个简单的初始任务。我们的任务分阶段方法随后提供了一个框架，逐步增加任务复杂度直至目标任务，同时在每个分阶段迭代中重新调整RL代理。考虑了两种分阶段方法：（1）逐步增加RL代理控制时间步的比例，以及（2）逐步淡化引导性信息奖励函数。我们提出了保证这些方法收敛到最优策略的条件。在3个稀疏奖励领域的实验结果表明，我们的任务分阶段方法在渐近性能方面优于现有最先进方法。

0

相关内容

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

54+阅读 · 2022年8月13日

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

专知会员服务

37+阅读 · 2022年7月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

首篇「课程学习（Curriculum Learning)」2021综述论文

首篇「课程学习（Curriculum Learning)」2021综述论文

专知会员服务

50+阅读 · 2021年1月31日

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

专知会员服务

111+阅读 · 2020年6月10日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知

2+阅读 · 2022年8月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

光子晶体柱快速制备新方法

国家自然科学基金

0+阅读 · 2014年12月31日

有向图的控制数研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

多组分纳米粒子的气-液界面自组装与光/电催化性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向在轨操控的多航天器期望模式运动分布式自主协同控制

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Arxiv

0+阅读 · 2023年5月18日

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum

Arxiv

0+阅读 · 2023年5月17日

The Power of Learned Locally Linear Models for Nonlinear Policy Optimization

Arxiv

0+阅读 · 2023年5月16日

Curriculum Learning for Relative Overgeneralization

Arxiv

0+阅读 · 2023年5月15日

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

Arxiv

5+阅读 · 2023年5月12日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

4+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知会员服务

54+阅读 · 2022年8月13日

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

【SIGIR2022教程】深度知识图谱表示学习: 补全、对齐和问答

专知会员服务

37+阅读 · 2022年7月17日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR2021】面向机器人的预训练模型-一种通用方法，伯克利Pieter Abbeel教授，附slides与视频

专知会员服务

29+阅读 · 2021年6月28日

首篇「课程学习（Curriculum Learning)」2021综述论文

首篇「课程学习（Curriculum Learning)」2021综述论文

专知会员服务

50+阅读 · 2021年1月31日

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

知识图谱推理，50页ppt，Salesforce首席科学家Richard Socher

专知会员服务

111+阅读 · 2020年6月10日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

【CMU博士论文】课程学习，Curriculum Learning，193页pdf

专知

2+阅读 · 2022年8月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

相关论文

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Arxiv

0+阅读 · 2023年5月18日

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum

Arxiv

0+阅读 · 2023年5月17日

The Power of Learned Locally Linear Models for Nonlinear Policy Optimization

Arxiv

0+阅读 · 2023年5月16日

Curriculum Learning for Relative Overgeneralization

Arxiv

0+阅读 · 2023年5月15日

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

Arxiv

5+阅读 · 2023年5月12日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Curriculum Learning: A Survey

Arxiv

24+阅读 · 2021年1月25日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

AutoML: A Survey of the State-of-the-Art

AutoML: A Survey of the State-of-the-Art

Arxiv

75+阅读 · 2019年8月14日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

17+阅读 · 2018年6月27日

相关基金

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多体量子纠缠与量子信息网络研究

国家自然科学基金

1+阅读 · 2014年12月31日

光子晶体柱快速制备新方法

国家自然科学基金

0+阅读 · 2014年12月31日

有向图的控制数研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

多组分纳米粒子的气-液界面自组装与光/电催化性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向在轨操控的多航天器期望模式运动分布式自主协同控制

国家自然科学基金

0+阅读 · 2011年12月31日

基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

国家自然科学基金

1+阅读 · 2010年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员