Spatiotemporal intelligence in autonomous driving (AD) requires an agent to integrate multi-view observations into a coherent scene representation, maintain object continuity across viewpoints and time, and reason about spatial relations, interactions, and future dynamics. However, existing AD vision-language benchmarks largely focus on single-view, static, ego-centric, or single-source question answering, leaving it unclear whether current Vision-Language Models (VLMs) can truly construct and reason over dynamic driving scenes. We introduce DriveSpatial, a benchmark of 15.6K human-verified QA pairs across 20 tasks from five large-scale AD datasets. DriveSpatial evaluates four abilities: Cognitive Scene Construction, Multi-view Relational Understanding, Temporal Reasoning, and Generalization. Unlike prior benchmarks, DriveSpatial is generated from a dynamic multi-relational scene graph that encodes object states, spatial relations, interactions, camera visibility, and temporal correspondences, enabling QA pairs that enforce genuine cross-view and spatiotemporal reasoning. Evaluating 15 representative VLMs reveals a substantial human-model gap: the strongest model trails humans by 28.4 points, with Cognitive Scene Construction emerging as the key bottleneck. Further diagnostics show that language-only prompting is insufficient, while explicit BEV grounding consistently improves performance. These results suggest that current VLMs lack the scene-construction ability needed for reliable spatiotemporal driving intelligence. DriveSpatial and its construction pipeline will be released to support future research.


翻译:自动驾驶中的时空智能要求智能体将多视角观测整合为一致的场景表征,维持目标在视角与时间维度上的连续性,并推理空间关系、交互作用及未来动态。然而,现有自动驾驶视觉语言基准主要聚焦于单视角、静态、自中心或单源问答任务,尚未明确当前视觉语言模型(VLM)能否真正构建并推理动态驾驶场景。为此,我们提出DriveSpatial基准,该基准基于五个大规模自动驾驶数据集,包含20个任务共计15.6万个人工验证的问答对。DriveSpatial评估四项核心能力:认知场景构建、多视角关系理解、时序推理与泛化能力。与先前基准不同,DriveSpatial基于动态多关系场景图生成,该场景图编码了目标状态、空间关系、交互作用、相机可见性及时序对应关系,从而生成强制要求跨视角与时空推理的问答对。对15个代表性VLM的评估揭示了显著的人机差距:最强模型落后人类28.4个百分点,其中认知场景构建成为关键瓶颈。进一步诊断表明,纯语言提示策略效果不足,而显式BEV空间定位方法可持续提升性能。这些结果表明,当前VLM缺乏实现可靠自动驾驶时空智能所必需的场景构建能力。DriveSpatial与其构建流程将公开发布以支持未来研究。

0
下载
关闭预览

相关内容

自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
专知会员服务
39+阅读 · 2021年9月7日
专知会员服务
98+阅读 · 2021年1月24日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【智能驾驶】史上最全自动驾驶系统解析
产业智能官
25+阅读 · 2017年8月21日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
专知会员服务
39+阅读 · 2021年9月7日
专知会员服务
98+阅读 · 2021年1月24日
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【智能驾驶】史上最全自动驾驶系统解析
产业智能官
25+阅读 · 2017年8月21日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员