Reinforcement learning (RL) is a core approach for robot control when expert demonstrations are unavailable. On-policy methods such as Proximal Policy Optimization (PPO) are widely used for their stability, but their reliance on narrowly distributed on-policy data limits accurate policy evaluation in high-dimensional state and action spaces. Off-policy methods can overcome this limitation by learning from a broader state-action distribution, yet suffer from slow convergence and instability, as fitting a value function over diverse data requires many gradient updates, causing critic errors to accumulate through bootstrapping. We present FlashSAC, a fast and stable off-policy RL algorithm built on Soft Actor-Critic. Motivated by scaling laws observed in supervised learning, FlashSAC sharply reduces gradient updates while compensating with larger models and higher data throughput. To maintain stability at increased scale, FlashSAC explicitly bounds weight, feature, and gradient norms, curbing critic error accumulation. Across over 60 tasks in 10 simulators, FlashSAC consistently outperforms PPO and strong off-policy baselines in both final performance and training efficiency, with the largest gains on high-dimensional tasks such as dexterous manipulation. In sim-to-real humanoid locomotion, FlashSAC reduces training time from hours to minutes, demonstrating the promise of off-policy RL for sim-to-real transfer.


翻译:强化学习(RL)是在缺乏专家演示时实现机器人控制的核心方法。基于策略的方法(如近端策略优化)因稳定性而广泛使用,但其依赖窄分布的在线策略数据,在高维状态与动作空间中限制了精准的策略评估。离策略方法可通过学习更广泛的状态-动作分布克服这一局限,却面临收敛慢与不稳定的问题——拟合多样数据的价值函数需大量梯度更新,导致评论家误差通过自举逐步累积。我们提出FlashSAC,一种基于柔性Actor-Critic的快速稳定离策略RL算法。受监督学习中观察到的缩放定律启发,FlashSAC大幅减少梯度更新次数,同时通过更大模型与更高数据吞吐量进行补偿。为维持规模化后的稳定性,FlashSAC显式约束权重、特征与梯度范数,抑制评论家误差累积。在10个仿真器的60余项任务中,FlashSAC在最终性能与训练效率上均持续超越PPO及强离策略基线,并在灵巧操作等高维任务中取得最大增益。在仿真到真实的人形机器人运动迁移中,FlashSAC将训练时间从数小时缩短至分钟级,彰显了离策略RL在仿真到真实迁移中的潜力。

0
下载
关闭预览

相关内容

《机器人强化学习技术进展》34页
专知会员服务
40+阅读 · 2025年7月16日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
28+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
90+阅读 · 2022年7月11日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《机器人强化学习技术进展》34页
专知会员服务
40+阅读 · 2025年7月16日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
28+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
90+阅读 · 2022年7月11日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员