Diffusion Policy Optimization without Drifting Apart - 专知论文

会员服务 ·

0

梯度 · 策略梯度 · 策略优化 · 策略改进 · 后训练 ·

Diffusion Policy Optimization without Drifting Apart

翻译：扩散策略优化中的无漂移方法

Haozhe Jiang,Haiwen Feng,Pieter Abbeel,Jiantao Jiao,Angjoo Kanazawa,Nika Haghtalab

from arxiv, Project page: astro-eric.github.io/blogs/dipod/

RL post-training has become increasingly pivotal for improving diffusion policies, but existing diffusion policy-gradient methods are often unstable and cannot achieve reliable policy improvement. We identify the cause as the double-drift phenomenon: optimizing a variational surrogate can let the ELBO separate from the true log-likelihood, which then makes the resulting proxy policy gradient misaligned with the true policy gradient of expected return. We propose \textbf{DiPOD}, a diffusion policy optimization framework that maintains tight-bound behavior throughout training by interleaving self-distillation with policy-improving gradient updates. This leads to a simple and practical algorithm: augmenting each diffusion policy-gradient update with an on-policy ELBO regularizer. Across diffusion language model post-training and continuous-control diffusion policies, DiPOD substantially stabilizes training and reaches higher rewards than previous methods.

翻译：强化学习后训练对于提升扩散策略日益关键，但现有扩散策略梯度方法常存在不稳定问题，难以实现可靠的策略改进。我们将其归因于“双重漂移”现象：优化变分代理项可能导致ELBO与真实对数似然解耦，进而使代理策略梯度与期望回报的真实策略梯度产生偏差。对此，我们提出\textbf{DiPOD}框架——一种通过将自蒸馏与策略改进梯度更新交替执行，从而在训练全程维持紧界行为的扩散策略优化方法。该思路催生出简洁实用的算法：在每次扩散策略梯度更新中增补一个在线策略ELBO正则项。在扩散语言模型后训练及连续控制扩散策略的两类实验中，DiPOD显著稳定了训练过程，并取得了优于既有方法的奖励值。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

改进型深度确定性策略梯度的无人机路径规划

改进型深度确定性策略梯度的无人机路径规划

专知会员服务

15+阅读 · 2025年5月1日

【普林斯顿博士论文】大规模模型的迁移学习与优化理论

【普林斯顿博士论文】大规模模型的迁移学习与优化理论

专知会员服务

35+阅读 · 2025年2月15日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

45+阅读 · 2024年7月20日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

84+阅读 · 2023年6月27日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

专知会员服务

84+阅读 · 2020年11月27日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

连续介质物理与力学和金融工程中的若干非线性扩散方程问题

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

Arxiv

0+阅读 · 6月16日

FlowRL: A Taxonomy and Modular Framework for Reinforcement Learning with Diffusion Policies

Arxiv

0+阅读 · 6月15日

Retrievable Gradients: Continual Post-Training Without Cumulative Weight Drift

Arxiv

0+阅读 · 6月14日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Efficient Reinforcement for Visual-Textual Thinking with Discrete Diffusion Model

Arxiv

0+阅读 · 6月11日

Time-Averaged Drift Approximations are Inconsistent for Inference in Drift Diffusion Models

Arxiv

0+阅读 · 6月8日

Guided Discovery of New Behaviors using Diffusion Policies

Arxiv

0+阅读 · 6月7日

Variational Proximal Policy Optimization

Arxiv

0+阅读 · 6月6日

Diffusion-Robust Optimization over Graphs

Arxiv

0+阅读 · 5月29日

SURGE: Approximation-free Training Free Particle Filter for Diffusion Surrogate

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

0+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

2+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

1+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

1+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

改进型深度确定性策略梯度的无人机路径规划

改进型深度确定性策略梯度的无人机路径规划

专知会员服务

15+阅读 · 2025年5月1日

【普林斯顿博士论文】大规模模型的迁移学习与优化理论

【普林斯顿博士论文】大规模模型的迁移学习与优化理论

专知会员服务

35+阅读 · 2025年2月15日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

45+阅读 · 2024年7月20日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

84+阅读 · 2023年6月27日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

【清华大学龙明盛副教授】迁移学习理论与算法，59页ppt

专知会员服务

84+阅读 · 2020年11月27日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

相关论文

Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

Arxiv

0+阅读 · 6月16日

FlowRL: A Taxonomy and Modular Framework for Reinforcement Learning with Diffusion Policies

Arxiv

0+阅读 · 6月15日

Retrievable Gradients: Continual Post-Training Without Cumulative Weight Drift

Arxiv

0+阅读 · 6月14日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Efficient Reinforcement for Visual-Textual Thinking with Discrete Diffusion Model

Arxiv

0+阅读 · 6月11日

Time-Averaged Drift Approximations are Inconsistent for Inference in Drift Diffusion Models

Arxiv

0+阅读 · 6月8日

Guided Discovery of New Behaviors using Diffusion Policies

Arxiv

0+阅读 · 6月7日

Variational Proximal Policy Optimization

Arxiv

0+阅读 · 6月6日

Diffusion-Robust Optimization over Graphs

Arxiv

0+阅读 · 5月29日

SURGE: Approximation-free Training Free Particle Filter for Diffusion Surrogate

Arxiv

0+阅读 · 5月18日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

连续介质物理与力学和金融工程中的若干非线性扩散方程问题

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员