Diffusion and flow-based generative policies provide a powerful policy class for reinforcement learning by inducing rich stochastic exploration through iterative action generation. However, the stochasticity of diffusion policies is not suitable for stable and precise control in high-dimensional robotic systems, where small action variations can accumulate into inconsistent motion and reduced robustness. To address this issue, we propose SteerGenPO, a latent-space reinforcement learning framework that steers a trained generative policy into a robust deterministic robotic controller. The key idea is to replace stochastic latent sampling of the trained generative policy with a learned latent actor that predicts a state-dependent latent input for the generative policies. This separates exploration and control: stochastic generative sampling provides diverse action proposals during policy learning, while deterministic latent steering provides stable and adaptive control at deployment. We evaluate SteerGenPO on six Isaac Lab benchmarks and a Unitree G1 locomotion task. The results show SteerGenPO improves over both classical RL and generative RL baselines, while its deterministic latent steering produces more stable inference-time behaviors and more reliable command responses.


翻译:扩散与流式生成策略通过学习迭代式动作生成引发丰富的随机探索,为强化学习提供了一类强大的策略函数。然而,扩散策略的随机性并不适用于高维机器人系统中的稳定精确控制——在该类系统中,微小的动作波动可能累积为不一致的运动并降低鲁棒性。为解决这一问题,我们提出SteerGenPO,一个潜在空间强化学习框架,可将训练好的生成策略导向为鲁棒的确定性机器人控制器。其核心思想是:用学习到的潜在动作器替代训练后生成策略的随机潜在采样,该动作器能为生成策略预测依赖于状态的潜在输入。这实现了探索与控制分离:随机生成采样为策略学习提供多样化动作提议,而确定性潜在导向则在部署时提供稳定且自适应的控制。我们在六个Isaac Lab基准测试及一个Unitree G1运动控制任务上评估了SteerGenPO。结果表明,SteerGenPO相较于经典RL和生成式RL基线均有提升,其确定性潜在导向能产生更稳定的推理时行为与更可靠的指令响应。

0
下载
关闭预览

相关内容

【ICML2025教程】生成式人工智能遇上强化学习
专知会员服务
40+阅读 · 2025年8月4日
《机器人强化学习技术进展》34页
专知会员服务
40+阅读 · 2025年7月16日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
专知会员服务
66+阅读 · 2021年4月22日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【ICML2025教程】生成式人工智能遇上强化学习
专知会员服务
40+阅读 · 2025年8月4日
《机器人强化学习技术进展》34页
专知会员服务
40+阅读 · 2025年7月16日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
专知会员服务
66+阅读 · 2021年4月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员