VDRive：利用强化视觉语言动作模型与扩散策略实现端到端自动驾驶 (VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving) - 专知论文

会员服务 ·

0

端到端 · 词元 · 视觉语言动作 · 自动驾驶 · 鲁棒 ·

VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving

翻译：VDRive：利用强化视觉语言动作模型与扩散策略实现端到端自动驾驶

Ziang Guo,Zufeng Zhang

from arxiv, WIP

In autonomous driving, dynamic environment and corner cases pose significant challenges to the robustness of ego vehicle's state understanding and decision making. We introduce VDRive, a novel pipeline for end-to-end autonomous driving that explicitly models state-action mapping to address these challenges, enabling interpretable and robust decision making. By leveraging the advancement of the state understanding of the Vision Language Action Model (VLA) with generative diffusion policy-based action head, our VDRive guides the driving contextually and geometrically. Contextually, VLA predicts future observations through token generation pre-training, where the observations are represented as discrete codes by a Conditional Vector Quantized Variational Autoencoder (CVQ-VAE). Geometrically, we perform reinforcement learning fine-tuning of the VLA to predict future trajectories and actions based on current driving conditions. VLA supplies the current state tokens and predicted state tokens for the action policy head to generate hierarchical actions and trajectories. During policy training, a learned critic evaluates the actions generated by the policy and provides gradient-based feedback, forming an actor-critic framework that enables a reinforcement-based policy learning pipeline. Experiments show that our VDRive achieves state-of-the-art performance in the Bench2Drive closed-loop benchmark and nuScenes open-loop planning.

翻译：在自动驾驶领域，动态环境与极端场景对自车状态理解与决策的鲁棒性构成重大挑战。本文提出VDRive——一种新颖的端到端自动驾驶框架，通过显式建模状态-动作映射以应对这些挑战，实现可解释且鲁棒的决策。通过结合视觉语言动作模型（VLA）在状态理解方面的进展与基于生成扩散策略的动作头，我们的VDRive能够从上下文与几何双重维度引导驾驶。在上下文层面，VLA通过词元生成预训练预测未来观测，其中观测由条件向量量化变分自编码器（CVQ-VAE）表示为离散编码。在几何层面，我们对VLA进行强化学习微调，使其能根据当前驾驶条件预测未来轨迹与动作。VLA为动作策略头提供当前状态词元与预测状态词元，以生成层次化动作与轨迹。在策略训练过程中，经学习的评判器评估策略生成的动作并提供基于梯度的反馈，构成演员-评判器框架，实现基于强化的策略学习流程。实验表明，我们的VDRive在Bench2Drive闭环基准测试与nuScenes开环规划任务中均达到最先进性能。

0

相关内容

端到端

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

端到端自动驾驶:挑战与前沿

端到端自动驾驶:挑战与前沿

专知会员服务

54+阅读 · 2023年7月3日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

清华大学&百度：面向自动驾驶的车路协同关键技术与展望，70页pdf

清华大学&百度：面向自动驾驶的车路协同关键技术与展望，70页pdf

专知会员服务

83+阅读 · 2021年8月22日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

异构车联网协作数据传输关键技术的建模分析及优化算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Arxiv

0+阅读 · 2月11日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving

Arxiv

0+阅读 · 1月30日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

视觉语言动作

相关VIP内容

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

端到端自动驾驶:挑战与前沿

端到端自动驾驶:挑战与前沿

专知会员服务

54+阅读 · 2023年7月3日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

清华大学&百度：面向自动驾驶的车路协同关键技术与展望，70页pdf

清华大学&百度：面向自动驾驶的车路协同关键技术与展望，70页pdf

专知会员服务

83+阅读 · 2021年8月22日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Arxiv

0+阅读 · 2月11日

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Arxiv

0+阅读 · 2月6日

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Arxiv

0+阅读 · 2月3日

MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving

Arxiv

0+阅读 · 1月30日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

异构车联网协作数据传输关键技术的建模分析及优化算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员