Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals - 专知论文

会员服务 ·

0

预训练 · 无监督 · 监督 · 样本 · 自适应 ·

Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals

翻译：高效探索的无监督学习：通过自我设定目标预训练自适应策略

Octavio Pappalardo

from arxiv, ICLR 2026; v2 adds link to code: https://github.com/Octavio-Pappalardo/ulee-jax

Unsupervised pre-training can equip reinforcement learning agents with prior knowledge and accelerate learning in downstream tasks. A promising direction, grounded in human development, investigates agents that learn by setting and pursuing their own goals. The core challenge lies in how to effectively generate, select, and learn from such goals. Our focus is on broad distributions of downstream tasks where solving every task zero-shot is infeasible. Such settings naturally arise when the target tasks lie outside of the pre-training distribution or when their identities are unknown to the agent. In this work, we (i) optimize for efficient multi-episode exploration and adaptation within a meta-learning framework, and (ii) guide the training curriculum with evolving estimates of the agent's post-adaptation performance. We present ULEE, an unsupervised meta-learning method that combines an in-context learner with an adversarial goal-generation strategy that maintains training at the frontier of the agent's capabilities. On XLand-MiniGrid benchmarks, ULEE pre-training yields improved exploration and adaptation abilities that generalize to novel objectives, environment dynamics, and map structures. The resulting policy attains improved zero-shot and few-shot performance, and provides a strong initialization for longer fine-tuning processes. It outperforms learning from scratch, DIAYN pre-training, and alternative curricula. Code is available at: https://github.com/Octavio-Pappalardo/ulee-jax

翻译：无监督预训练能够为强化学习代理提供先验知识，并加速下游任务的学习。受人类发展启发的方向，研究者探索了通过设定并追求自身目标进行学习的代理。核心挑战在于如何有效生成、选择并从这类目标中学习。我们关注的是下游任务的广泛分布，其中零样本解决每个任务是不可行的。当目标任务位于预训练分布之外或代理未知其身份时，此类情况自然出现。本文中，我们（i）在元学习框架内优化多回合探索与适应的高效性，以及（ii）通过代理适应后性能的演化估计来引导训练课程。我们提出ULEE，一种无监督元学习方法，结合了上下文学习器与对抗性目标生成策略，使训练维持在代理能力前沿。在XLand-MiniGrid基准测试中，ULEE预训练提升了探索与适应能力，这些能力可泛化至新目标、环境动态及地图结构。所得策略在零样本和少样本场景下性能更优，并为更长的微调过程提供了强初始化。它优于从零学习、DIAYN预训练及替代课程的方法。代码见：https://github.com/Octavio-Pappalardo/ulee-jax

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

自监督学习理论

自监督学习理论

专知会员服务

57+阅读 · 2022年8月23日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【DeepMind深度学习课程】无监督表示学习前沿进展，129页ppt，Unsupervised Representation Learning

【DeepMind深度学习课程】无监督表示学习前沿进展，129页ppt，Unsupervised Representation Learning

专知会员服务

80+阅读 · 2020年6月29日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

24+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

专知会员服务

87+阅读 · 2019年11月24日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

【上海交大】半监督学习理论及其研究进展概述

【上海交大】半监督学习理论及其研究进展概述

专知

43+阅读 · 2019年6月2日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Label Shift Aware Adaptation for Online Zero-shot Learning with Contrastive Language-Image Pre-Training (CLIP)

Arxiv

0+阅读 · 6月13日

An interpretable unsupervised representation learning for high precision measurement in particle physics

Arxiv

0+阅读 · 6月12日

Learning What to Predict: Downstream-Guided Task Design for Continued Pretraining

Arxiv

0+阅读 · 6月11日

Select and Improve: Understanding the Mechanics of Post-Training for Reasoning

Arxiv

0+阅读 · 6月11日

Learning to Adapt: Representation-Based Reinforcement Learning for Multi-Task Skill Transfer

Arxiv

0+阅读 · 6月11日

Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning

Arxiv

0+阅读 · 6月10日

INFUSER: Influence-Guided Self-Evolution Improves Reasoning

Arxiv

0+阅读 · 6月8日

Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation

Arxiv

0+阅读 · 5月27日

Enhancing the Code Reasoning Capabilities of LLMs via Consistency-based Reinforcement Learning

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

自监督学习理论

自监督学习理论

专知会员服务

57+阅读 · 2022年8月23日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【DeepMind深度学习课程】无监督表示学习前沿进展，129页ppt，Unsupervised Representation Learning

【DeepMind深度学习课程】无监督表示学习前沿进展，129页ppt，Unsupervised Representation Learning

专知会员服务

80+阅读 · 2020年6月29日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

24+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

【Yann Lecun最新报告】基于能量的自监督学习（Energy-Based Self-Supervised Learning ）附68页ppt

专知会员服务

87+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

【上海交大】半监督学习理论及其研究进展概述

【上海交大】半监督学习理论及其研究进展概述

专知

43+阅读 · 2019年6月2日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

相关论文

Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Label Shift Aware Adaptation for Online Zero-shot Learning with Contrastive Language-Image Pre-Training (CLIP)

Arxiv

0+阅读 · 6月13日

An interpretable unsupervised representation learning for high precision measurement in particle physics

Arxiv

0+阅读 · 6月12日

Learning What to Predict: Downstream-Guided Task Design for Continued Pretraining

Arxiv

0+阅读 · 6月11日

Select and Improve: Understanding the Mechanics of Post-Training for Reasoning

Arxiv

0+阅读 · 6月11日

Learning to Adapt: Representation-Based Reinforcement Learning for Multi-Task Skill Transfer

Arxiv

0+阅读 · 6月11日

Self-Supervised Multisensory Pretraining for Contact-Rich Robot Reinforcement Learning

Arxiv

0+阅读 · 6月10日

INFUSER: Influence-Guided Self-Evolution Improves Reasoning

Arxiv

0+阅读 · 6月8日

Looking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation

Arxiv

0+阅读 · 5月27日

Enhancing the Code Reasoning Capabilities of LLMs via Consistency-based Reinforcement Learning

Arxiv

0+阅读 · 5月18日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员