Recent advancements in multimodal large language models (MLLMs) have shown strong understanding of driving scenes, drawing interest in their application to autonomous driving. However, high-level reasoning in safety-critical scenarios, where avoiding one traffic risk can create another, remains a major challenge. Such reasoning is often infeasible with only a single front view and requires a comprehensive view of the environment, which we achieve through multi-view inputs. We define Safety-Critical Reasoning as a new task that leverages multi-view inputs to address this challenge. Then, we distill Safety-Critical Reasoning into two stages: first resolve the immediate risk, then mitigate the decision-induced downstream risks. To support this, we introduce WaymoQA, a dataset of 35,000 human-annotated question-answer pairs covering complex, high-risk driving scenarios. The dataset includes multiple-choice and open-ended formats across both image and video modalities. Experiments reveal that existing MLLMs underperform in safety-critical scenarios compared to normal scenes, but fine-tuning with WaymoQA significantly improves their reasoning ability, highlighting the effectiveness of our dataset in developing safer and more reasoning-capable driving agents. Our code and data are provided in https://github.com/sjyu001/WaymoQA


翻译:近年来,多模态大语言模型在驾驶场景理解方面展现出强大能力,引发了将其应用于自动驾驶领域的兴趣。然而,在安全关键场景中,避免一个交通风险可能引发另一个风险,此类高层级推理仍是主要挑战。仅凭单一前视图通常无法实现此类推理,需要环境的全面视角,我们通过多视角输入实现这一目标。我们将安全关键推理定义为一个新任务,利用多视角输入应对这一挑战。进而,我们将安全关键推理提炼为两个阶段:首先化解即时风险,随后缓解决策引发的下游风险。为此,我们推出WaymoQA数据集,包含35,000个人工标注的问答对,涵盖复杂高风险驾驶场景。该数据集包含图像与视频两种模态下的多项选择与开放式问答形式。实验表明,现有多模态大语言模型在安全关键场景中的表现显著低于正常场景,但使用WaymoQA进行微调可大幅提升其推理能力,这凸显了本数据集在开发更安全、更具推理能力的驾驶智能体方面的有效性。我们的代码与数据公开于https://github.com/sjyu001/WaymoQA

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
针对自动驾驶智能模型的攻击与防御
专知会员服务
19+阅读 · 2024年6月25日
【博士论文】鲁棒深度学习自动驾驶,160页pdf
专知会员服务
40+阅读 · 2022年11月17日
自动驾驶中可解释AI的综述和未来研究方向
专知会员服务
69+阅读 · 2022年1月10日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员