Likelihood-based policy gradient methods are the dominant approach for training robot control policies from rewards. These methods rely on differentiable action likelihoods, which constrain policy outputs to simple distributions like Gaussians. In this work, we show how flow matching policy gradients -- a recent framework that bypasses likelihood computation -- can be made effective for training and fine-tuning more expressive policies in challenging robot control settings. We introduce an improved objective that enables success in legged locomotion, humanoid motion tracking, and manipulation tasks, as well as robust sim-to-real transfer on two humanoid robots. We then present ablations and analysis on training dynamics. Results show how policies can exploit the flow representation for exploration when training from scratch, as well as improved fine-tuning robustness over baselines.


翻译:基于似然的策略梯度方法是目前从奖励中训练机器人控制策略的主要方法。这些方法依赖于可微分的动作似然,从而将策略输出限制为简单分布(如高斯分布)。在本工作中,我们展示了流匹配策略梯度——一个绕过似然计算的新近框架——如何能在具有挑战性的机器人控制场景中有效地训练和微调更具表达能力的策略。我们提出了一种改进的目标函数,使其能够在足式运动、人形机器人运动跟踪和操作任务中取得成功,并在两台人形机器人上实现了稳健的仿真到现实迁移。随后,我们对训练动态进行了消融实验和分析。结果表明,策略能够利用流表示在从头开始训练时进行探索,并且相较于基线方法,其微调鲁棒性也得到了提升。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
改进型深度确定性策略梯度的无人机路径规划
专知会员服务
14+阅读 · 2025年5月1日
基于脉冲神经网络的机器人智能控制研究进展
专知会员服务
25+阅读 · 2024年9月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
通过条件梯度进行结构化机器学习训练,50页ppt与视频
专知会员服务
13+阅读 · 2021年2月25日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员