Vision-Language-Action (VLA) models are emerging as highly effective planning models for end-to-end autonomous driving systems. However, current works mostly rely on imitation learning from sparse trajectory annotations and under-utilize their potential as generative models. We propose Generative Scenario Rollouts (GeRo), a plug-and-play framework for VLA models that jointly performs planning and generation of language-grounded future traffic scenes through an autoregressive rollout strategy. First, a VLA model is trained to encode ego vehicle and agent dynamics into latent tokens under supervision from planning, motion, and language tasks, facilitating text-aligned generation. Next, GeRo performs language-conditioned autoregressive generation. Given multi-view images, a scenario description, and ego-action questions, it generates future latent tokens and textual responses to guide long-horizon rollouts. A rollout-consistency loss stabilizes predictions using ground truth or pseudo-labels, mitigating drift and preserving text-action alignment. This design enables GeRo to perform temporally consistent, language-grounded rollouts that support long-horizon reasoning and multi-agent planning. On Bench2Drive, GeRo improves driving score and success rate by +15.7 and +26.2, respectively. By integrating reinforcement learning with generative rollouts, GeRo achieves state-of-the-art closed-loop and open-loop performance, demonstrating strong zero-shot robustness. These results highlight the promise of generative, language-conditioned reasoning as a foundation for safer and more interpretable end-to-end autonomous driving.


翻译:视觉-语言-行动(VLA)模型正逐渐成为端到端自动驾驶系统中高效的规划模型。然而,当前研究大多依赖于稀疏轨迹标注的模仿学习,未能充分利用其作为生成模型的潜力。我们提出了生成式场景推演(GeRo),一个即插即用的VLA模型框架,通过自回归推演策略联合执行规划与基于语言的未来交通场景生成。首先,在规划、运动及语言任务的监督下训练一个VLA模型,将自车与交通参与者的动态编码为潜在标记,以促进文本对齐的生成。接着,GeRo执行语言条件的自回归生成。给定多视角图像、场景描述及自车动作问题,它生成未来的潜在标记与文本响应,以指导长时域推演。推演一致性损失利用真实标注或伪标签稳定预测,缓解漂移并保持文本-动作对齐。该设计使GeRo能够执行时序一致、基于语言的场景推演,支持长时域推理与多智能体规划。在Bench2Drive基准上,GeRo将驾驶分数和成功率分别提升了+15.7和+26.2。通过将强化学习与生成式推演相结合,GeRo实现了最先进的闭环与开环性能,并展现出强大的零样本鲁棒性。这些结果凸显了生成式、语言条件推理作为构建更安全、更可解释的端到端自动驾驶基础的潜力。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
用于自动驾驶系统测试的生成式人工智能:综述
专知会员服务
17+阅读 · 2025年8月28日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
26+阅读 · 2025年6月16日
用于自动驾驶的生成式人工智能:前沿与机遇
专知会员服务
26+阅读 · 2025年5月16日
生成式人工智能在交通规划中的应用:综述
专知会员服务
17+阅读 · 2025年3月15日
LargeAD:面向自动驾驶的大规模跨传感器数据预训练
专知会员服务
17+阅读 · 2025年1月8日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【CVPR2024】基础模型在自动驾驶系统中的应用
专知会员服务
24+阅读 · 2024年8月13日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
用于自动驾驶系统测试的生成式人工智能:综述
专知会员服务
17+阅读 · 2025年8月28日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
26+阅读 · 2025年6月16日
用于自动驾驶的生成式人工智能:前沿与机遇
专知会员服务
26+阅读 · 2025年5月16日
生成式人工智能在交通规划中的应用:综述
专知会员服务
17+阅读 · 2025年3月15日
LargeAD:面向自动驾驶的大规模跨传感器数据预训练
专知会员服务
17+阅读 · 2025年1月8日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【CVPR2024】基础模型在自动驾驶系统中的应用
专知会员服务
24+阅读 · 2024年8月13日
端到端自动驾驶:挑战与前沿
专知会员服务
54+阅读 · 2023年7月3日
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员