Instruction-grounded driving, where passenger language guides trajectory planning, requires vehicles to understand intent before motion. However, most prior instruction-following planners rely on simulation or fixed command vocabularies, limiting real-world generalization. doScenes, the first real-world dataset linking free-form instructions (with referentiality) to nuScenes ground-truth motion, enables instruction-conditioned planning. In this work, we adapt OpenEMMA, an open-source MLLM-based end-to-end driving framework that ingests front-camera views and ego-state and outputs 10-step speed-curvature trajectories, to this setting, presenting a reproducible instruction-conditioned baseline on doScenes and investigate the effects of human instruction prompts on predicted driving behavior. We integrate doScenes directives as passenger-style prompts within OpenEMMA's vision-language interface, enabling linguistic conditioning before trajectory generation. Evaluated on 849 annotated scenes using ADE, we observe that instruction conditioning substantially improves robustness by preventing extreme baseline failures, yielding a 98.7% reduction in mean ADE. When such outliers are removed, instructions still influence trajectory alignment, with well-phrased prompts improving ADE by up to 5.1%. We use this analysis to discuss what makes a "good" instruction for the OpenEMMA framework. We release the evaluation prompts and scripts to establish a reproducible baseline for instruction-aware planning. GitHub: https://github.com/Mi3-Lab/doScenes-VLM-Planning


翻译:指令驱动的自动驾驶要求车辆在运动前理解乘客语言所传达的意图。然而,现有大多数遵循指令的规划器依赖于仿真环境或固定指令词汇,限制了其在真实场景中的泛化能力。doScenes作为首个将自由形式指令(具备指代性)与nuScenes真实运动数据关联的现实世界数据集,为实现指令条件化规划提供了可能。本研究将开源的多模态大语言模型端到端驾驶框架OpenEMMA适配于此场景,该框架通过前视摄像头与自车状态输入,输出10步速度-曲率轨迹。我们在doScenes数据集上建立了可复现的指令条件化基准,并探究人类指令提示对预测驾驶行为的影响。通过将doScenes指令以乘客风格提示的形式集成至OpenEMMA的视觉-语言接口,实现了轨迹生成前的语言条件化控制。基于849个标注场景采用平均位移误差(ADE)进行评估,结果显示指令条件化能显著提升系统鲁棒性:极端基线故障被有效抑制,平均ADE降低98.7%。即使排除异常值后,指令仍能改善轨迹对齐质量,表述恰当的提示可使ADE提升达5.1%。基于此分析,我们探讨了适用于OpenEMMA框架的“优质指令”特征。本研究公开了评估提示词与脚本,旨在为指令感知规划建立可复现的基准。项目地址:https://github.com/Mi3-Lab/doScenes-VLM-Planning

0
下载
关闭预览

相关内容

自动驾驶轨迹规划中的基础模型:进展综述与开放挑战
专知会员服务
14+阅读 · 2025年12月2日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
26+阅读 · 2025年6月16日
【ICLR2025】AdaWM:基于自适应世界模型的自动驾驶规划
专知会员服务
16+阅读 · 2025年1月26日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
《基于自然语言的人工智能军事决策支持》
专知会员服务
152+阅读 · 2024年1月25日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员