Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.Code and videos: https://lift-humanoid.github.io


翻译:强化学习(RL)已广泛应用于人形机器人控制,其中如近端策略优化(PPO)等在线策略方法通过大规模并行仿真实现了鲁棒的训练,并在某些情况下能够零样本部署到真实机器人。然而,在线策略算法的低样本效率限制了其在新环境中的安全适应能力。尽管离线策略RL和基于模型的RL已展现出更高的样本效率,但人形机器人控制中大规模预训练与高效微调之间的差距依然存在。本文发现,采用大批量更新和高更新数据比(UTD)的离线策略软演员-评论家(SAC)算法,能够可靠地支持人形机器人运动策略的大规模预训练,并实现真实机器人的零样本部署。在适应新环境方面,我们证明这些经过SAC预训练的策略可通过基于模型的方法在新环境和分布外任务中进行微调。在新环境中的数据收集采用确定性策略执行,而随机探索则被限制在基于物理信息的世界模型中。这种分离方式降低了适应过程中随机探索的风险,同时保持了改进所需的探索覆盖范围。总体而言,该方法结合了预训练阶段大规模仿真的时间效率与微调阶段基于模型学习的样本效率。代码与视频:https://lift-humanoid.github.io

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
《机器人强化学习技术进展》34页
专知会员服务
38+阅读 · 2025年7月16日
【牛津大学博士论文】有效的离线训练与高效的在线适应
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
24+阅读 · 2022年5月4日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员