Zero-shot reinforcement learning (RL) algorithms aim to learn a family of policies from a reward-free dataset, and recover optimal policies for any reward function directly at test time. Naturally, the quality of the pretraining dataset determines the performance of the recovered policies across tasks. However, pre-collecting a relevant, diverse dataset without prior knowledge of the downstream tasks of interest remains a challenge. In this work, we study $\textit{online}$ zero-shot RL for quadrupedal control on real robotic systems, building upon the Forward-Backward (FB) algorithm. We observe that undirected exploration yields low-diversity data, leading to poor downstream performance and rendering policies impractical for direct hardware deployment. Therefore, we introduce FB-MEBE, an online zero-shot RL algorithm that combines an unsupervised behavior exploration strategy with a regularization critic. FB-MEBE promotes exploration by maximizing the entropy of the achieved behavior distribution. Additionally, a regularization critic shapes the recovered policies toward more natural and physically plausible behaviors. We empirically demonstrate that FB-MEBE achieves and improved performance compared to other exploration strategies in a range of simulated downstream tasks, and that it renders natural policies that can be seamlessly deployed to hardware without further finetuning. Videos and code available on our website.


翻译:零样本强化学习算法旨在从无奖励数据集中学习一族策略,并在测试阶段直接恢复任意奖励函数对应的最优策略。自然,预训练数据集的质量决定了恢复策略在不同任务中的性能表现。然而,在没有下游任务先验知识的情况下,预先收集相关且多样化的数据集仍是一个挑战。本研究基于前向-后向算法,在真实机器人系统上研究四足控制的在线零样本强化学习。我们发现,无导向探索产生的数据多样性较低,导致下游性能较差,并使策略难以直接部署到硬件上。因此,我们提出FB-MEBE——一种结合无监督行为探索策略与正则化评论者的在线零样本强化学习算法。FB-MEBE通过最大化已实现行为分布的熵来促进探索,同时,正则化评论者将恢复的策略塑造成更自然且物理上更合理的行为。实验表明,在一系列模拟下游任务中,FB-MEBE的性能优于其他探索策略,并能生成可直接部署到硬件上而无需进一步微调的自然策略。视频和代码参见我们的网站。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向鲁棒的零样本强化学习
专知会员服务
14+阅读 · 2025年10月20日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
【WWW2021】本体增强零样本学习
专知会员服务
37+阅读 · 2021年2月26日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月12日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【NeurIPS2025】迈向鲁棒的零样本强化学习
专知会员服务
14+阅读 · 2025年10月20日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
【WWW2021】本体增强零样本学习
专知会员服务
37+阅读 · 2021年2月26日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员