IRL-DAL: Safe and Adaptive Trajectory Planning for Autonomous Driving via Energy-Guided Diffusion Models - 专知论文

会员服务 ·

0

自适应 · 自动驾驶 · 轨迹规划 · 模仿学习 · 扩散模型 ·

IRL-DAL: Safe and Adaptive Trajectory Planning for Autonomous Driving via Energy-Guided Diffusion Models

翻译：IRL-DAL：基于能量引导扩散模型的安全自适应自动驾驶轨迹规划

Seyed Ahmad Hosseini Miangoleh,Amin Jalal Aghdasian,Farzaneh Abdollahi

This paper proposes a novel inverse reinforcement learning framework using a diffusion-based adaptive lookahead planner (IRL-DAL) for autonomous vehicles. Training begins with imitation from an expert finite state machine (FSM) controller to provide a stable initialization. Environment terms are combined with an IRL discriminator signal to align with expert goals. Reinforcement learning (RL) is then performed with a hybrid reward that combines diffuse environmental feedback and targeted IRL rewards. A conditional diffusion model, which acts as a safety supervisor, plans safe paths. It stays in its lane, avoids obstacles, and moves smoothly. Then, a learnable adaptive mask (LAM) improves perception. It shifts visual attention based on vehicle speed and nearby hazards. After FSM-based imitation, the policy is fine-tuned with Proximal Policy Optimization (PPO). Training is run in the Webots simulator with a two-stage curriculum. A 96\% success rate is reached, and collisions are reduced to 0.05 per 1k steps, marking a new benchmark for safe navigation. By applying the proposed approach, the agent not only drives in lane but also handles unsafe conditions at an expert level, increasing robustness.We make our code publicly available.

翻译：本文提出了一种新颖的逆强化学习框架，利用基于扩散的自适应前瞻规划器（IRL-DAL）实现自动驾驶车辆的控制。训练始于对专家有限状态机（FSM）控制器的模仿学习，以提供稳定的初始化。环境反馈项与IRL判别器信号相结合，以对齐专家目标。随后，使用一种结合了扩散环境反馈与定向IRL奖励的混合奖励函数进行强化学习（RL）。一个作为安全监督器的条件扩散模型负责规划安全路径，确保车辆保持在车道内、规避障碍物并实现平稳行驶。接着，一个可学习的自适应掩码（LAM）用于提升感知能力，它能根据车速和附近危险动态调整视觉注意力。在基于FSM的模仿学习之后，策略通过近端策略优化（PPO）进行微调。训练在Webots仿真器中采用两阶段课程学习进行。该方法实现了96%的成功率，并将碰撞率降低至每千步0.05次，为安全导航设立了新的基准。应用所提出的方法后，智能体不仅能够实现车道内行驶，还能以专家水平处理不安全状况，从而显著增强了系统的鲁棒性。我们已公开相关代码。

0

相关内容

自适应

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

24+阅读 · 4月11日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

专知会员服务

16+阅读 · 2025年1月26日

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

专知会员服务

38+阅读 · 2024年12月4日

军事自动目标识别《在合成孔径雷达图像上使用可解释图神经网络进行基于感知-行动的人类决策制定》

军事自动目标识别《在合成孔径雷达图像上使用可解释图神经网络进行基于感知-行动的人类决策制定》

专知会员服务

35+阅读 · 2024年3月23日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

139+阅读 · 2022年11月23日

俄亥俄州立大学294页博士论文《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

俄亥俄州立大学294页博士论文《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知会员服务

126+阅读 · 2022年7月13日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知

25+阅读 · 2022年9月4日

自动驾驶毫米波雷达物体检测技术-算法

自动驾驶毫米波雷达物体检测技术-算法

CVer

14+阅读 · 2020年5月10日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

自动驾驶车载激光雷达技术现状分析

自动驾驶车载激光雷达技术现状分析

智能交通技术

17+阅读 · 2019年4月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于驾驶意图的电动汽车电液复合制动协调控制系统研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于迭代学习的城市轨道交通列车自动运行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于膜算法的雷达辐射源信号聚类分选方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Arxiv

0+阅读 · 3月18日

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

Arxiv

0+阅读 · 3月12日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 3月12日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

Arxiv

0+阅读 · 2月23日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

Arxiv

0+阅读 · 2月16日

RAPiD: Real-time Deterministic Trajectory Planning via Diffusion Behavior Priors for Safe and Efficient Autonomous Driving

Arxiv

0+阅读 · 2月7日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

24+阅读 · 4月11日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

【ICLR2025】AdaWM：基于自适应世界模型的自动驾驶规划

专知会员服务

16+阅读 · 2025年1月26日

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

《多功能雷达中的自适应雷达资源管理：开发雷达调度、探测和跟踪的认知方法》最新77页

专知会员服务

38+阅读 · 2024年12月4日

军事自动目标识别《在合成孔径雷达图像上使用可解释图神经网络进行基于感知-行动的人类决策制定》

军事自动目标识别《在合成孔径雷达图像上使用可解释图神经网络进行基于感知-行动的人类决策制定》

专知会员服务

35+阅读 · 2024年3月23日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

139+阅读 · 2022年11月23日

俄亥俄州立大学294页博士论文《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

俄亥俄州立大学294页博士论文《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知会员服务

126+阅读 · 2022年7月13日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

【自适应雷达294页】《推进用于实时参数调整和决策的完全自适应雷达概念》美国空军研究实验室赞助

专知

25+阅读 · 2022年9月4日

自动驾驶毫米波雷达物体检测技术-算法

自动驾驶毫米波雷达物体检测技术-算法

CVer

14+阅读 · 2020年5月10日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

自动驾驶车载激光雷达技术现状分析

自动驾驶车载激光雷达技术现状分析

智能交通技术

17+阅读 · 2019年4月9日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

相关论文

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Arxiv

0+阅读 · 3月18日

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

Arxiv

0+阅读 · 3月12日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 3月12日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

Arxiv

0+阅读 · 2月23日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

Arxiv

0+阅读 · 2月16日

RAPiD: Real-time Deterministic Trajectory Planning via Diffusion Behavior Priors for Safe and Efficient Autonomous Driving

Arxiv

0+阅读 · 2月7日

Safe and Stylized Trajectory Planning for Autonomous Driving via Diffusion Model

Arxiv

0+阅读 · 2月4日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于驾驶意图的电动汽车电液复合制动协调控制系统研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于迭代学习的城市轨道交通列车自动运行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于膜算法的雷达辐射源信号聚类分选方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员