End-to-end (E2E) autonomous driving has recently attracted increasing interest in unifying Vision-Language-Action (VLA) with World Models to enhance decision-making and forward-looking imagination. However, existing methods fail to effectively unify future scene evolution and action planning within a single architecture due to inadequate sharing of latent states, limiting the impact of visual imagination on action decisions. To address this limitation, we propose DriveWorld-VLA, a novel framework that unifies world modeling and planning within a latent space by tightly integrating VLA and world models at the representation level, which enables the VLA planner to benefit directly from holistic scene-evolution modeling and reducing reliance on dense annotated supervision. Additionally, DriveWorld-VLA incorporates the latent states of the world model as core decision-making states for the VLA planner, facilitating the planner to assess how candidate actions impact future scene evolution. By conducting world modeling entirely in the latent space, DriveWorld-VLA supports controllable, action-conditioned imagination at the feature level, avoiding expensive pixel-level rollouts. Extensive open-loop and closed-loop evaluations demonstrate the effectiveness of DriveWorld-VLA, which achieves state-of-the-art performance with 91.3 PDMS on NAVSIMv1, 86.8 EPDMS on NAVSIMv2, and 0.16 3-second average collision rate on nuScenes. Code and models will be released in https://github.com/liulin815/DriveWorld-VLA.git.


翻译:端到端自动驾驶近期日益受到关注,其旨在将视觉-语言-动作与世界模型相统一,以增强决策与前瞻想象能力。然而,现有方法因潜在状态共享不足,难以在单一架构内有效统一未来场景演化与动作规划,限制了视觉想象对动作决策的影响。为克服此局限,我们提出DriveWorld-VLA——一种在表示层面紧密集成视觉-语言-动作与世界模型的新框架,通过将世界建模与规划统一于潜在空间,使视觉-语言-动作规划器能直接从整体场景演化建模中获益,并减少对密集标注监督的依赖。此外,DriveWorld-VLA将世界模型的潜在状态作为视觉-语言-动作规划器的核心决策状态,促使规划器能评估候选动作如何影响未来场景演化。通过在潜在空间中完整进行世界建模,DriveWorld-VLA支持特征层面可控的动作条件想象,避免了昂贵的像素级推演。大量开环与闭环实验验证了DriveWorld-VLA的有效性:其在NAVSIMv1上获得91.3 PDMS,在NAVSIMv2上获得86.8 EPDMS,在nuScenes上实现0.16的3秒平均碰撞率,均达到最先进性能。代码与模型将发布于 https://github.com/liulin815/DriveWorld-VLA.git。

0
下载
关闭预览

相关内容

视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
自动驾驶开源数据体系:现状与未来
专知会员服务
41+阅读 · 2024年1月28日
自动驾驶产业链的现状与发展趋势
专知会员服务
47+阅读 · 2022年11月20日
全球自动驾驶战略与政策观察,36页pdf
专知会员服务
58+阅读 · 2022年2月8日
专知会员服务
39+阅读 · 2021年9月7日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
自动驾驶开源数据体系:现状与未来
专知会员服务
41+阅读 · 2024年1月28日
自动驾驶产业链的现状与发展趋势
专知会员服务
47+阅读 · 2022年11月20日
全球自动驾驶战略与政策观察,36页pdf
专知会员服务
58+阅读 · 2022年2月8日
专知会员服务
39+阅读 · 2021年9月7日
相关资讯
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员