【NeurIPS2020】控制原语的持续学习:通过重置发现技能 - 专知VIP

会员服务 ·

2

持续学习 ·

2020 年 11 月 12 日

【NeurIPS2020】控制原语的持续学习:通过重置发现技能

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习具有在复杂环境下自动获取行为的潜力，但为了成功地部署它，必须解决许多实际的挑战。首先，在实际设置中，当代理尝试某个任务并失败时，环境必须以某种方式“重置”，以便代理能够再次尝试该任务。虽然在模拟中很容易，但在现实世界中可能需要相当多的人力，特别是在试验数量非常大的情况下。第二，现实世界的学习通常涉及复杂的、时间上延伸的行为，这种行为通常很难通过随机探索获得。虽然这两个问题乍一看似乎是不相关的，但在本研究中，我们将展示一个单一的方法如何允许代理在最小的监督下获得技能，同时消除重置的需要。我们这样做是通过利用这样的洞察力:为学习任务将代理“重置”为一组广泛的初始状态的需要，提供了一种学习多种“重置技能”的自然设置。我们提出了一个平衡重置目标和学习技能的通用和博弈公式，并证明了这种方法提高了无重置任务的性能，另外，我们获得的技能可以用来显著加速下游学习。

https://arxiv.org/abs/2011.05286

成为VIP会员查看完整内容

10

相关内容

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】持续学习的元巩固

专知会员服务

33+阅读 · 2020年10月2日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【元学习 | 论文】CoRL19，元世界:多任务和元强化学习的基准和评估，伯克利分校，Google

【元学习 | 论文】CoRL19，元世界:多任务和元强化学习的基准和评估，伯克利分校，Google

专知会员服务

27+阅读 · 2019年11月21日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

【强化学习】如何开启强化学习的大门？

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

StackRec: Efficient Training of Very Deep Sequential Recommender Models by Layer Stacking

Arxiv

0+阅读 · 2020年12月14日

Soft Q Network

Arxiv

0+阅读 · 2020年12月14日

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment

Arxiv

0+阅读 · 2020年12月11日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Enriching Pre-trained Language Model with Entity Information for Relation Classification

Arxiv

5+阅读 · 2019年5月20日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

4+阅读 · 2018年9月25日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

VIP会员

相关主题

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

6+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

10+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

7+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

13+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

9+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

12+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

12+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

15+阅读 · 7月14日

相关VIP内容

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【Cell 2020】神经网络中的持续学习

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

【NeurIPS2020】持续学习的元巩固

专知会员服务

33+阅读 · 2020年10月2日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【元学习 | 论文】CoRL19，元世界:多任务和元强化学习的基准和评估，伯克利分校，Google

【元学习 | 论文】CoRL19，元世界:多任务和元强化学习的基准和评估，伯克利分校，Google

专知会员服务

27+阅读 · 2019年11月21日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

OpenAI提出Reptile：可扩展的元学习算法

OpenAI提出Reptile：可扩展的元学习算法

深度学习世界

7+阅读 · 2018年3月9日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

【强化学习】如何开启强化学习的大门？

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

相关论文

StackRec: Efficient Training of Very Deep Sequential Recommender Models by Layer Stacking

Arxiv

0+阅读 · 2020年12月14日

Soft Q Network

Arxiv

0+阅读 · 2020年12月14日

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment

Arxiv

0+阅读 · 2020年12月11日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Enriching Pre-trained Language Model with Entity Information for Relation Classification

Arxiv

5+阅读 · 2019年5月20日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

4+阅读 · 2018年9月25日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

微信扫码咨询专知VIP会员