Long-tail scenarios remain a major bottleneck for autonomous driving evaluation, even as datasets grow by orders of magnitude. Existing evaluation pipelines are rarely human-aligned, safety-aware, verifiable, and explainable at the same time: closed-loop metrics often saturate among strong planners, while unstructured human ratings can be noisy without a carefully designed protocol. We formulate planning evaluation as additional-threat detection: given a planner trajectory and an expert reference, does the planner's displacement introduce new unsafe driving behavior? We propose FluidTest, an evaluation pipeline with three components: a pairwise WebUI protocol for reliable human annotation; a taxonomy of 32 semantic threats with evidence-grounded decision graphs; and a three-agent verification system with reflection for precision and auditability. Experiments on the WOD-E2E dataset show that FluidTest produces consistent labels among trained annotators and identifies additional threats in 65% of Poutine trajectories and 51% of RAP trajectories. These results show that state-of-the-art planners can still exhibit substantial safety-relevant failures despite high Rater Feedback Scores (RFS) and low Average Displacement Error (ADE). Additional details, guidance, and code are available at https://fluidtest.web.app.


翻译:长尾场景仍是自动驾驶评估的主要瓶颈,即便数据集规模呈数量级增长。现有评估流程难以同时实现与人类对齐、安全感知、可验证及可解释性:闭环指标在强规划器中往往趋于饱和,而缺乏精心设计协议的非结构化人类评分则可能引入噪声。我们将规划评估构建为额外威胁检测任务:给定规划器轨迹与专家参考轨迹,规划器的位移是否引入了新的不安全驾驶行为?为此提出FluidTest评估流程,包含三个组件:用于可靠人工标注的配对WebUI协议;包含32种语义威胁及证据驱动决策图的分类体系;以及具备反思机制的三智能体验证系统,确保精度与可审计性。在WOD-E2E数据集上的实验表明,FluidTest能在受过训练的标注者间产生一致性标签,并在65%的Poutine轨迹与51%的RAP轨迹中识别出额外威胁。这些结果表明,尽管最先进的规划器具有较高的Rater反馈评分(RFS)与较低的平均位移误差(ADE),其仍可能表现出显著的安全相关故障。更多细节、指南及代码请访问https://fluidtest.web.app。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
深度长尾学习研究综述
专知会员服务
29+阅读 · 2025年2月12日
非结构化环境中的自动驾驶:我们已走多远?
专知会员服务
27+阅读 · 2024年10月13日
《长尾学习》最新2024年综述
专知会员服务
31+阅读 · 2024年8月3日
专知会员服务
24+阅读 · 2021年9月16日
专知会员服务
39+阅读 · 2021年9月7日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
SLAM的动态地图和语义问题
计算机视觉life
24+阅读 · 2019年4月27日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
全景分割任务介绍及其最新进展【附PPT与视频资料】
人工智能前沿讲习班
11+阅读 · 2018年12月5日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
深度长尾学习研究综述
专知会员服务
29+阅读 · 2025年2月12日
非结构化环境中的自动驾驶:我们已走多远?
专知会员服务
27+阅读 · 2024年10月13日
《长尾学习》最新2024年综述
专知会员服务
31+阅读 · 2024年8月3日
专知会员服务
24+阅读 · 2021年9月16日
专知会员服务
39+阅读 · 2021年9月7日
相关资讯
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
SLAM的动态地图和语义问题
计算机视觉life
24+阅读 · 2019年4月27日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
全景分割任务介绍及其最新进展【附PPT与视频资料】
人工智能前沿讲习班
11+阅读 · 2018年12月5日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员