Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection - 专知论文

会员服务 ·

0

扰动 · 嵌入 · 对齐 · 分析 · 语言模型 ·

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

翻译：面向自动驾驶危险检测的视觉-语言模型任务对齐稳定性分析

Everett Richards

from arxiv, 8 pages (5 main body + 3 references / appendices). ICML 2026 Workshop on Combining Theory and Benchmarks (CTB)

Vision-language models (VLMs) are increasingly used for scene understanding in autonomous driving, but robustness analysis often relies on task-agnostic embedding stability alone. We study whether corruption-induced embedding drift predicts changes in a task-aligned hazard score derived from CLIP image-text similarities. Using controlled corruptions on BDD100K road scenes, we compare embedding drift against margin drift, defined as the change in hazard score under perturbation. The relationship is highly corruption-dependent: some families exhibit strong coupling between representation drift and decision drift, while others induce hazardous decision instability despite relatively modest embedding change. Furthermore, corruption families differ in failure direction: most suppress hazard detections via false negatives, while occlusion instead triggers false alarms, suggesting that benchmark design should account for asymmetric failure modes, not just overall instability rates. These results suggest that robustness benchmarks should include task-aligned stability measures in addition to embedding-level perturbation statistics.

翻译：视觉-语言模型（VLM）日益广泛地应用于自动驾驶场景理解，但其鲁棒性分析通常仅依赖于任务无关的嵌入稳定性。本研究探究了由数据损坏引发的嵌入漂移是否能预测基于CLIP图像-文本相似性计算的任务对齐危险分数的变化。通过在BDD100K道路场景中施加受控扰动，我们比较了嵌入漂移与边界漂移（即扰动下危险分数的变化）。两者关系高度依赖于扰动的类型：部分扰动族表现出表示漂移与决策漂移之间的强耦合关系，而其他扰动族则在嵌入变化相对较小的情况下仍会引发危险的决策不稳定性。此外，不同的扰动族在失效方向上存在差异：多数扰动通过假阴性抑制危险检测，而遮挡则反而引发虚警。这表明基准测试设计应关注非对称故障模式，而非仅关注总体不稳定率。上述结果表明，鲁棒性基准测试除嵌入层扰动统计指标外，还应纳入任务对齐的稳定性度量指标。

0

相关内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

17+阅读 · 4月11日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models

Arxiv

0+阅读 · 6月15日

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning

Arxiv

0+阅读 · 6月14日

GEASS: Gated Evidence-Adaptive Selective Caption Trust for Vision-Language Models

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

Iterative Visual Thinking: Teaching Vision-Language Models Spatial Self-Correction through Visual Feedback

Arxiv

0+阅读 · 6月11日

Your Model Already Knows: Attention-Guided Safety Filter for Vision-Language-Action Models

Arxiv

0+阅读 · 6月8日

Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving

Arxiv

0+阅读 · 6月8日

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

Arxiv

0+阅读 · 5月28日

TempGlitch: Evaluating Vision-Language Models for Temporal Glitch Detection in Gameplay Videos

Arxiv

0+阅读 · 5月20日

VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

17+阅读 · 4月11日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

DriveJudge: Rethinking Autonomous Driving Evaluation with Vision-Language Models

Arxiv

0+阅读 · 6月15日

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning

Arxiv

0+阅读 · 6月14日

GEASS: Gated Evidence-Adaptive Selective Caption Trust for Vision-Language Models

Arxiv

0+阅读 · 6月13日

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Arxiv

0+阅读 · 6月12日

Iterative Visual Thinking: Teaching Vision-Language Models Spatial Self-Correction through Visual Feedback

Arxiv

0+阅读 · 6月11日

Your Model Already Knows: Attention-Guided Safety Filter for Vision-Language-Action Models

Arxiv

0+阅读 · 6月8日

Where Does the Answer Come From? Benchmarking View-Level Visual Evidence Identification in Multi-View MLLMs for Autonomous Driving

Arxiv

0+阅读 · 6月8日

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

Arxiv

0+阅读 · 5月28日

TempGlitch: Evaluating Vision-Language Models for Temporal Glitch Detection in Gameplay Videos

Arxiv

0+阅读 · 5月20日

VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving

Arxiv

0+阅读 · 5月19日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员