重参数化流策略优化 (Reparameterization Flow Policy Optimization) - 专知论文

会员服务 ·

0

重参数化 · 参数化 · 策略优化 · 梯度 · 反向传播 ·

Reparameterization Flow Policy Optimization

翻译：重参数化流策略优化

Hai Zhong,Zhuoran Li,Xun Wang,Longbo Huang

Reparameterization Policy Gradient (RPG) has emerged as a powerful paradigm for model-based reinforcement learning, enabling high sample efficiency by backpropagating gradients through differentiable dynamics. However, prior RPG approaches have been predominantly restricted to Gaussian policies, limiting their performance and failing to leverage recent advances in generative models. In this work, we identify that flow policies, which generate actions via differentiable ODE integration, naturally align with the RPG framework, a connection not established in prior work. However, naively exploiting this synergy proves ineffective, often suffering from training instability and a lack of exploration. We propose Reparameterization Flow Policy Optimization (RFO). RFO computes policy gradients by backpropagating jointly through the flow generation process and system dynamics, unlocking high sample efficiency without requiring intractable log-likelihood calculations. RFO includes two tailored regularization terms for stability and exploration. We also propose a variant of RFO with action chunking. Extensive experiments on diverse locomotion and manipulation tasks, involving both rigid and soft bodies with state or visual inputs, demonstrate the effectiveness of RFO. Notably, on a challenging locomotion task controlling a soft-body quadruped, RFO achieves almost $2\times$ the reward of the state-of-the-art baseline.

翻译：重参数化策略梯度（RPG）已成为基于模型的强化学习的一个强大范式，它通过可微动力学反向传播梯度，实现了高样本效率。然而，先前的RPG方法主要局限于高斯策略，限制了其性能，并且未能利用生成模型的最新进展。在这项工作中，我们发现，通过可微常微分方程积分生成动作的流策略，天然地与RPG框架相契合，这一关联在先前工作中并未建立。然而，简单地利用这种协同效应被证明是无效的，通常会遇到训练不稳定和探索不足的问题。我们提出了重参数化流策略优化（RFO）。RFO通过流生成过程和系统动力学联合反向传播来计算策略梯度，从而在不需进行难以处理的似然对数计算的情况下，解锁了高样本效率。RFO包含两个为稳定性和探索量身定制的正则化项。我们还提出了一种带有动作分块的RFO变体。在涉及刚体和软体、状态或视觉输入的各种运动和控制任务上进行的大量实验，证明了RFO的有效性。值得注意的是，在一个控制软体四足机器人的具有挑战性的运动任务上，RFO获得的奖励几乎是现有最先进基准方法的$2\times$。

0

相关内容

重参数化

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【ICML2024】SAPG：分裂与聚合策略梯度

【ICML2024】SAPG：分裂与聚合策略梯度

专知会员服务

19+阅读 · 2024年7月30日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

干货|掌握机器学习数学基础之优化[1]（重点知识）

干货|掌握机器学习数学基础之优化[1]（重点知识）

机器学习研究会

10+阅读 · 2017年11月19日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

生产系统干扰应对策略与重调度集成优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Arxiv

0+阅读 · 2月18日

Categorical Reparameterization with Denoising Diffusion models

Arxiv

0+阅读 · 2月9日

Reparameterization Proximal Policy Optimization

Arxiv

0+阅读 · 2月6日

Flow Policy Gradients for Robot Control

Arxiv

0+阅读 · 2月2日

Reusing Trajectories in Policy Gradients Enables Fast Convergence

Arxiv

0+阅读 · 2月2日

Dichotomous Diffusion Policy Optimization

Arxiv

0+阅读 · 2月1日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

Spatially-Adaptive Gradient Re-parameterization for 3D Large Kernel Optimization

Arxiv

0+阅读 · 1月30日

Stabilizing Policy Gradient Methods via Reward Profiling

Arxiv

0+阅读 · 1月24日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【ICML2024】SAPG：分裂与聚合策略梯度

【ICML2024】SAPG：分裂与聚合策略梯度

专知会员服务

19+阅读 · 2024年7月30日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

干货|掌握机器学习数学基础之优化[1]（重点知识）

干货|掌握机器学习数学基础之优化[1]（重点知识）

机器学习研究会

10+阅读 · 2017年11月19日

相关论文

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

Arxiv

0+阅读 · 2月18日

Categorical Reparameterization with Denoising Diffusion models

Arxiv

0+阅读 · 2月9日

Reparameterization Proximal Policy Optimization

Arxiv

0+阅读 · 2月6日

Flow Policy Gradients for Robot Control

Arxiv

0+阅读 · 2月2日

Reusing Trajectories in Policy Gradients Enables Fast Convergence

Arxiv

0+阅读 · 2月2日

Dichotomous Diffusion Policy Optimization

Arxiv

0+阅读 · 2月1日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

Spatially-Adaptive Gradient Re-parameterization for 3D Large Kernel Optimization

Arxiv

0+阅读 · 1月30日

Stabilizing Policy Gradient Methods via Reward Profiling

Arxiv

0+阅读 · 1月24日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

生产系统干扰应对策略与重调度集成优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员