DriveFine：基于精细化增强掩码扩散VLA的精确鲁棒驾驶 (DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving) - 专知论文

会员服务 ·

0

掩码 · 鲁棒 · 设计 · 解码 · 混合 ·

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

翻译：DriveFine：基于精细化增强掩码扩散VLA的精确鲁棒驾驶

Chenxu Dang,Sining Ang,Yongkang Li,Haochen Tian,Jie Wang,Guang Li,Hangjun Ye,Jie Ma,Long Chen,Yan Wang

Vision-Language-Action (VLA) models for autonomous driving increasingly adopt generative planners trained with imitation learning followed by reinforcement learning. Diffusion-based planners suffer from modality alignment difficulties, low training efficiency, and limited generalization. Token-based planners are plagued by cumulative causal errors and irreversible decoding. In summary, the two dominant paradigms exhibit complementary strengths and weaknesses. In this paper, we propose DriveFine, a masked diffusion VLA model that combines flexible decoding with self-correction capabilities. In particular, we design a novel plug-and-play block-MoE, which seamlessly injects a refinement expert on top of the generation expert. By enabling explicit expert selection during inference and gradient blocking during training, the two experts are fully decoupled, preserving the foundational capabilities and generic patterns of the pretrained weights, which highlights the flexibility and extensibility of the block-MoE design. Furthermore, we design a hybrid reinforcement learning strategy that encourages effective exploration of refinement expert while maintaining training stability. Extensive experiments on NAVSIM v1, v2, and Navhard benchmarks demonstrate that DriveFine exhibits strong efficacy and robustness. The code will be released at https://github.com/MSunDYY/DriveFine.

翻译：自动驾驶中的视觉-语言-动作（VLA）模型日益采用生成式规划器，其训练通常先通过模仿学习，再结合强化学习进行。基于扩散的规划器存在模态对齐困难、训练效率低下以及泛化能力有限等问题。基于令牌的规划器则受累积因果误差和不可逆解码问题困扰。总体而言，这两种主流范式呈现出互补的优势与不足。本文提出DriveFine，一种结合灵活解码与自校正能力的掩码扩散VLA模型。具体而言，我们设计了一种新颖的即插即用模块化混合专家系统（block-MoE），可在生成专家之上无缝注入精细化专家。通过在推理阶段实现显式的专家选择，并在训练阶段进行梯度阻断，两个专家完全解耦，从而保留了预训练权重的基础能力与通用模式，这凸显了block-MoE设计的灵活性与可扩展性。此外，我们设计了一种混合强化学习策略，在保持训练稳定性的同时，促进对精细化专家的有效探索。在NAVSIM v1、v2及Navhard基准测试上的大量实验表明，DriveFine展现出卓越的效能与鲁棒性。代码将在https://github.com/MSunDYY/DriveFine发布。

0

相关内容

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合线控转向功能的汽车鲁棒滑模转向及横摆稳定性控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

汽车下一代高速数据传输网络基础理论研究

国家自然科学基金

2+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Arxiv

0+阅读 · 2月11日

VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving

Arxiv

0+阅读 · 2月10日

RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Arxiv

0+阅读 · 2月5日

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models

Arxiv

0+阅读 · 2月2日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月29日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月17日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Arxiv

0+阅读 · 2月11日

VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving

Arxiv

0+阅读 · 2月10日

RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Arxiv

0+阅读 · 2月5日

From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models

Arxiv

0+阅读 · 2月2日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月29日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月17日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Arxiv

0+阅读 · 1月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合线控转向功能的汽车鲁棒滑模转向及横摆稳定性控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

汽车下一代高速数据传输网络基础理论研究

国家自然科学基金

2+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员