DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models - 专知论文

会员服务 ·

0

上下文 · 上下文感知 · 语言模型 · 驾驶行为 · 数据集 ·

DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models

翻译：DriveJudge：基于视觉语言模型重新思考自动驾驶评估

Xinglong Sun,Kevin Xie,Jenny Schmalfuss,Despoina Paschalidou,Xiuming Zhang,Sanja Fidler,Kashyap Chitta,Jose M. Alvarez

from arxiv, Under Review

Autonomous driving has shifted towards end-to-end policy learning, where reliable, interpretable policy evaluation is a fundamental challenge as driving quality is highly context-dependent. Commonly used rule-based driving metrics like EPDMS are interpretable but lack context-awareness, while recent VLMbased evaluations are context-aware but limited by ambiguous VLM outputs and weak physical grounding. To evaluate driving in a manner that is both interpretable and context-aware, we introduce DriveJudge. DriveJudge is a driving evaluation agent that combines rule-grounded evaluation with Vision-Language Model (VLM) reasoning and selectively invokes physically-grounded deterministic rule functions after interpreting the environmental context. To train and evaluate DriveJudge, we curate a large-scale dataset of 33,577 challenging driving samples with human annotations on whether the driving behavior is reasonable in the given scenario. With this dataset, we address the underexplored problem of driving metric evaluation, and introduce two human-aligned benchmark tasks: Driving Quality Classification and Trajectory Preference Selection. DriveJudge outperforms EPDMS for driving quality classification by 21.23 AUC, and the recent VLM-based DriveCritic for trajectory preference selection by 6.5%, setting a new standard for interpretable and precise driving evaluation.

翻译：自动驾驶正向端到端策略学习发展，其中可靠、可解释的策略评估是基本挑战，因为驾驶质量高度依赖上下文。常用的基于规则的驾驶指标（如EPDMS）具有可解释性但缺乏上下文感知能力，而近期基于VLM的评估方法虽具备上下文感知能力，却受限于模糊的VLM输出和薄弱的物理基础。为以兼具可解释性与上下文感知性的方式评估驾驶行为，我们提出DriveJudge。这是一种驾驶评估智能体，结合了规则驱动评估与视觉语言模型（VLM）推理，并在解释环境上下文后选择性调用基于物理的确定性规则函数。为训练和评估DriveJudge，我们构建了包含33,577个具有挑战性驾驶样本的大规模数据集，并标注了驾驶行为在特定场景下是否合理。基于该数据集，我们探讨了驾驶指标评估这一尚未充分研究的问题，并引入两项与人类意图对齐的基准任务：驾驶质量分类与轨迹偏好选择。DriveJudge在驾驶质量分类任务上比EPDMS提升21.23 AUC，在轨迹偏好选择任务上比近期基于VLM的DriveCritic提升6.5%，为可解释且精准的驾驶评估树立了新标准。

0

相关内容

上下文

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

60+阅读 · 2023年2月18日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving

Arxiv

0+阅读 · 6月15日

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

Arxiv

0+阅读 · 6月14日

Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking

Arxiv

0+阅读 · 6月11日

DrivingAgent: Design and Scheduling Agents for Autonomous Driving Systems

Arxiv

0+阅读 · 6月11日

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

Arxiv

0+阅读 · 6月10日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

CADET: A Modular Platform for Evaluating Distributed Cooperative Autonomy in Connected Autonomous Vehicles

Arxiv

0+阅读 · 6月2日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving

Arxiv

0+阅读 · 5月19日

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

上下文感知

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

60+阅读 · 2023年2月18日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving

Arxiv

0+阅读 · 6月15日

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

Arxiv

0+阅读 · 6月14日

Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking

Arxiv

0+阅读 · 6月11日

DrivingAgent: Design and Scheduling Agents for Autonomous Driving Systems

Arxiv

0+阅读 · 6月11日

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

Arxiv

0+阅读 · 6月10日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

CADET: A Modular Platform for Evaluating Distributed Cooperative Autonomy in Connected Autonomous Vehicles

Arxiv

0+阅读 · 6月2日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving

Arxiv

0+阅读 · 5月19日

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月18日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员