DriveWorld-VLA：基于视觉-语言-动作统一潜在空间世界建模的自动驾驶 (DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving) - 专知论文

会员服务 ·

0

潜在 · MS · 世界模型 · 自动驾驶 · 端到端 ·

DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

翻译：DriveWorld-VLA：基于视觉-语言-动作统一潜在空间世界建模的自动驾驶

Feiyang jia,Lin Liu,Ziying Song,Caiyan Jia,Hangjun Ye,Xiaoshuai Hao,Long Chen

from arxiv, 20 pages, 7 tables, 12 figures

End-to-end (E2E) autonomous driving has recently attracted increasing interest in unifying Vision-Language-Action (VLA) with World Models to enhance decision-making and forward-looking imagination. However, existing methods fail to effectively unify future scene evolution and action planning within a single architecture due to inadequate sharing of latent states, limiting the impact of visual imagination on action decisions. To address this limitation, we propose DriveWorld-VLA, a novel framework that unifies world modeling and planning within a latent space by tightly integrating VLA and world models at the representation level, which enables the VLA planner to benefit directly from holistic scene-evolution modeling and reducing reliance on dense annotated supervision. Additionally, DriveWorld-VLA incorporates the latent states of the world model as core decision-making states for the VLA planner, facilitating the planner to assess how candidate actions impact future scene evolution. By conducting world modeling entirely in the latent space, DriveWorld-VLA supports controllable, action-conditioned imagination at the feature level, avoiding expensive pixel-level rollouts. Extensive open-loop and closed-loop evaluations demonstrate the effectiveness of DriveWorld-VLA, which achieves state-of-the-art performance with 91.3 PDMS on NAVSIMv1, 86.8 EPDMS on NAVSIMv2, and 0.16 3-second average collision rate on nuScenes. Code and models will be released in https://github.com/liulin815/DriveWorld-VLA.git.

翻译：端到端自动驾驶近期日益受到关注，其旨在将视觉-语言-动作与世界模型相统一，以增强决策与前瞻想象能力。然而，现有方法因潜在状态共享不足，难以在单一架构内有效统一未来场景演化与动作规划，限制了视觉想象对动作决策的影响。为克服此局限，我们提出DriveWorld-VLA——一种在表示层面紧密集成视觉-语言-动作与世界模型的新框架，通过将世界建模与规划统一于潜在空间，使视觉-语言-动作规划器能直接从整体场景演化建模中获益，并减少对密集标注监督的依赖。此外，DriveWorld-VLA将世界模型的潜在状态作为视觉-语言-动作规划器的核心决策状态，促使规划器能评估候选动作如何影响未来场景演化。通过在潜在空间中完整进行世界建模，DriveWorld-VLA支持特征层面可控的动作条件想象，避免了昂贵的像素级推演。大量开环与闭环实验验证了DriveWorld-VLA的有效性：其在NAVSIMv1上获得91.3 PDMS，在NAVSIMv2上获得86.8 EPDMS，在nuScenes上实现0.16的3秒平均碰撞率，均达到最先进性能。代码与模型将发布于 https://github.com/liulin815/DriveWorld-VLA.git。

0

相关内容

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

专知会员服务

61+阅读 · 2023年8月5日

自动驾驶产业链的现状与发展趋势

自动驾驶产业链的现状与发展趋势

专知会员服务

47+阅读 · 2022年11月20日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

全球自动驾驶战略与政策观察，36页pdf

全球自动驾驶战略与政策观察，36页pdf

专知会员服务

58+阅读 · 2022年2月8日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

【报告】自动驾驶汽车-软件定义汽车—L4核心玩家前瞻（附77页PDF文件下载）

专知会员服务

42+阅读 · 2021年8月23日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【智能驾驶】97页PPT，读懂自动驾驶全产业链发展！

【智能驾驶】97页PPT，读懂自动驾驶全产业链发展！

产业智能官

15+阅读 · 2019年4月5日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

Arxiv

0+阅读 · 2月16日

VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving

Arxiv

0+阅读 · 2月10日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月9日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving

Arxiv

0+阅读 · 2月2日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月2日

DAVOS: An Autonomous Vehicle Operating System in the Vehicle Computing Era

Arxiv

0+阅读 · 1月23日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

【报告】从特斯拉FSD看人工智能-端到端模型赋能自动驾驶，机器人引领具身智能

专知会员服务

61+阅读 · 2023年8月5日

自动驾驶产业链的现状与发展趋势

自动驾驶产业链的现状与发展趋势

专知会员服务

47+阅读 · 2022年11月20日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

全球自动驾驶战略与政策观察，36页pdf

全球自动驾驶战略与政策观察，36页pdf

专知会员服务

58+阅读 · 2022年2月8日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

【报告】自动驾驶汽车-软件定义汽车—L4核心玩家前瞻（附77页PDF文件下载）

专知会员服务

42+阅读 · 2021年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【智能驾驶】97页PPT，读懂自动驾驶全产业链发展！

【智能驾驶】97页PPT，读懂自动驾驶全产业链发展！

产业智能官

15+阅读 · 2019年4月5日

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

自动驾驶系统的皇冠-光电半导体的技术原理和发展趋势｜厚势汽车

厚势

10+阅读 · 2019年4月4日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

Arxiv

0+阅读 · 2月16日

VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving

Arxiv

0+阅读 · 2月10日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月9日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月6日

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask

Arxiv

0+阅读 · 2月3日

UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving

Arxiv

0+阅读 · 2月2日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月2日

DAVOS: An Autonomous Vehicle Operating System in the Vehicle Computing Era

Arxiv

0+阅读 · 1月23日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员