Recent end-to-end autonomous driving approaches have leveraged Vision-Language Models (VLMs) to enhance planning capabilities in complex driving scenarios. However, VLMs are inherently trained as generalist models, lacking specialized understanding of driving-specific reasoning in 3D space and time. When applied to autonomous driving, these models struggle to establish structured spatial-temporal representations that capture geometric relationships, scene context, and motion patterns critical for safe trajectory planning. To address these limitations, we propose SGDrive, a novel framework that explicitly structures the VLM's representation learning around driving-specific knowledge hierarchies. Built upon a pre-trained VLM backbone, SGDrive decomposes driving understanding into a scene-agent-goal hierarchy that mirrors human driving cognition: drivers first perceive the overall environment (scene context), then attend to safety-critical agents and their behaviors, and finally formulate short-term goals before executing actions. This hierarchical decomposition provides the structured spatial-temporal representation that generalist VLMs lack, integrating multi-level information into a compact yet comprehensive format for trajectory planning. Extensive experiments on the NAVSIM benchmark demonstrate that SGDrive achieves state-of-the-art performance among camera-only methods on both PDMS and EPDMS, validating the effectiveness of hierarchical knowledge structuring for adapting generalist VLMs to autonomous driving.


翻译:近期端到端自动驾驶方法利用视觉语言模型(VLM)来增强复杂驾驶场景中的规划能力。然而,视觉语言模型本质上作为通用模型进行训练,缺乏对三维时空领域中驾驶专用推理的专业理解。当应用于自动驾驶时,这些模型难以建立结构化的时空表征以捕捉几何关系、场景上下文及对安全轨迹规划至关重要的运动模式。为应对这些局限性,我们提出SGDrive——一种新颖的框架,该框架围绕驾驶专用知识层次显式地构建视觉语言模型的表征学习。基于预训练的视觉语言模型主干,SGDrive将驾驶理解分解为模拟人类驾驶认知的场景-智能体-目标层次结构:驾驶员首先感知整体环境(场景上下文),继而关注安全关键智能体及其行为,最终在执行动作前制定短期目标。这种层次化分解提供了通用视觉语言模型所缺乏的结构化时空表征,将多层级信息整合为紧凑而全面的格式以用于轨迹规划。在NAVSIM基准上的大量实验表明,SGDrive在仅使用摄像头的方法中于PDMS和EPDMS指标上均实现了最先进的性能,验证了层次化知识结构在将通用视觉语言模型适配至自动驾驶领域的有效性。

0
下载
关闭预览

相关内容

自动驾驶的世界模型综述
专知会员服务
44+阅读 · 2025年1月22日
自动驾驶产业链的现状与发展趋势
专知会员服务
47+阅读 · 2022年11月20日
全球自动驾驶战略与政策观察,36页pdf
专知会员服务
58+阅读 · 2022年2月8日
专知会员服务
39+阅读 · 2021年9月7日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
自动驾驶最新综述论文(31页PDF下载)
专知
119+阅读 · 2019年1月15日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
自动驾驶最新综述论文(31页PDF下载)
专知
119+阅读 · 2019年1月15日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员