PlannerRFT：通过闭环与样本高效微调强化扩散规划器 (PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning) - 专知论文

会员服务 ·

0

微调 · 样本 · 自适应 · 强化微调 · 鲁棒 ·

PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning

翻译：PlannerRFT：通过闭环与样本高效微调强化扩散规划器

Hongchen Li,Tianyu Li,Jiazhi Yang,Haochen Tian,Caojun Wang,Lei Shi,Mingyang Shang,Zengrong Lin,Gaoqiang Wu,Zhihui Hao,Xianpeng Lang,Jia Hu,Hongyang Li

Diffusion-based planners have emerged as a promising approach for human-like trajectory generation in autonomous driving. Recent works incorporate reinforcement fine-tuning to enhance the robustness of diffusion planners through reward-oriented optimization in a generation-evaluation loop. However, they struggle to generate multi-modal, scenario-adaptive trajectories, hindering the exploitation efficiency of informative rewards during fine-tuning. To resolve this, we propose PlannerRFT, a sample-efficient reinforcement fine-tuning framework for diffusion-based planners. PlannerRFT adopts a dual-branch optimization that simultaneously refines the trajectory distribution and adaptively guides the denoising process toward more promising exploration, without altering the original inference pipeline. To support parallel learning at scale, we develop nuMax, an optimized simulator that achieves 10 times faster rollout compared to native nuPlan. Extensive experiments shows that PlannerRFT yields state-of-the-art performance with distinct behaviors emerging during the learning process.

翻译：基于扩散的规划器已成为自动驾驶中生成类人轨迹的一种有前景的方法。近期研究通过融入强化微调，在生成-评估循环中进行面向奖励的优化，以增强扩散规划器的鲁棒性。然而，这些方法难以生成多模态、场景自适应的轨迹，阻碍了微调过程中信息丰富奖励的利用效率。为解决此问题，我们提出了PlannerRFT，一种面向扩散规划器的样本高效强化微调框架。PlannerRFT采用双分支优化策略，在不改变原始推理流程的前提下，同时优化轨迹分布并自适应地引导去噪过程朝向更具潜力的探索方向。为支持大规模并行学习，我们开发了nuMax，一个优化的模拟器，其仿真速度相比原生nuPlan提升了10倍。大量实验表明，PlannerRFT实现了最先进的性能，并在学习过程中涌现出独特的行为模式。

0

相关内容

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

32+阅读 · 2024年8月8日

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

专知会员服务

14+阅读 · 2024年8月2日

多模态可控扩散模型综述

多模态可控扩散模型综述

专知会员服务

39+阅读 · 2024年7月20日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

专知会员服务

47+阅读 · 2022年3月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于多策略融合粒子群算法的点焊机器人路径多目标优化

国家自然科学基金

1+阅读 · 2017年12月31日

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

非共面放射治疗中的多机器人协作无碰撞轨迹规划与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

汽车排气微粒扩散凝聚建模分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

Arxiv

0+阅读 · 2月16日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

RAPiD: Real-time Deterministic Trajectory Planning via Diffusion Behavior Priors for Safe and Efficient Autonomous Driving

Arxiv

0+阅读 · 2月7日

Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows

Arxiv

0+阅读 · 2月6日

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

Arxiv

0+阅读 · 2月4日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 2月4日

PlanTRansformer: Unified Prediction and Planning with Goal-conditioned Transformer

Arxiv

0+阅读 · 2月3日

Scene-Adaptive Motion Planning with Explicit Mixture of Experts and Interaction-Oriented Optimization

Arxiv

0+阅读 · 2月3日

SanD-Planner: Sample-Efficient Diffusion Planner in B-Spline Space for Robust Local Navigation

Arxiv

0+阅读 · 1月31日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

32+阅读 · 2024年8月8日

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

专知会员服务

14+阅读 · 2024年8月2日

多模态可控扩散模型综述

多模态可控扩散模型综述

专知会员服务

39+阅读 · 2024年7月20日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

专知会员服务

47+阅读 · 2022年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

Arxiv

0+阅读 · 2月16日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

RAPiD: Real-time Deterministic Trajectory Planning via Diffusion Behavior Priors for Safe and Efficient Autonomous Driving

Arxiv

0+阅读 · 2月7日

Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows

Arxiv

0+阅读 · 2月6日

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

Arxiv

0+阅读 · 2月4日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 2月4日

PlanTRansformer: Unified Prediction and Planning with Goal-conditioned Transformer

Arxiv

0+阅读 · 2月3日

Scene-Adaptive Motion Planning with Explicit Mixture of Experts and Interaction-Oriented Optimization

Arxiv

0+阅读 · 2月3日

SanD-Planner: Sample-Efficient Diffusion Planner in B-Spline Space for Robust Local Navigation

Arxiv

0+阅读 · 1月31日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月23日

相关基金

基于多策略融合粒子群算法的点焊机器人路径多目标优化

国家自然科学基金

1+阅读 · 2017年12月31日

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

非共面放射治疗中的多机器人协作无碰撞轨迹规划与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

汽车排气微粒扩散凝聚建模分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于低维连续表示的启发式智能规划技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员