Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models - 专知论文

会员服务 ·

0

模态 · 样本 · 跨模态 · 标注 · 负样本 ·

Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models

翻译：跨模态代理演化：基于视觉语言模型的分布外检测

Hao Tang,Yu Liu,Shuanglin Yan,Fei Shen,Shengfeng He,Jing Qin

from arxiv, Accepted by AAAI 2026

Reliable zero-shot detection of out-of-distribution (OOD) inputs is critical for deploying vision-language models in open-world settings. However, the lack of labeled negatives in zero-shot OOD detection necessitates proxy signals that remain effective under distribution shift. Existing negative-label methods rely on a fixed set of textual proxies, which (i) sparsely sample the semantic space beyond in-distribution (ID) classes and (ii) remain static while only visual features drift, leading to cross-modal misalignment and unstable predictions. In this paper, we propose CoEvo, a training- and annotation-free test-time framework that performs bidirectional, sample-conditioned adaptation of both textual and visual proxies. Specifically, CoEvo introduces a proxy-aligned co-evolution mechanism to maintain two evolving proxy caches, which dynamically mines contextual textual negatives guided by test images and iteratively refines visual proxies, progressively realigning cross-modal similarities and enlarging local OOD margins. Finally, we dynamically re-weight the contributions of dual-modal proxies to obtain a calibrated OOD score that is robust to distribution shift. Extensive experiments on standard benchmarks demonstrate that CoEvo achieves state-of-the-art performance, improving AUROC by 1.33% and reducing FPR95 by 45.98% on ImageNet-1K compared to strong negative-label baselines.

翻译：在开放世界场景中部署视觉语言模型时，可靠的零样本分布外输入检测至关重要。然而，零样本OOD检测中缺乏带标注的负样本，因此需要能在分布偏移下保持有效的代理信号。现有的负标签方法依赖于固定的文本代理集合，这存在两个问题：(i) 对分布内类别之外的语义空间采样稀疏；(ii) 在视觉特征漂移时保持静态，导致跨模态失准和预测不稳定。本文提出CoEvo，一种无需训练和标注的测试时框架，通过双向、样本条件化的方式同时适配文本与视觉代理。具体而言，CoEvo引入代理对齐的协同演化机制，维护两个动态演化的代理缓存：在测试图像引导下动态挖掘上下文文本负样本，并迭代优化视觉代理，逐步实现跨模态相似度的重新对齐并扩大局部OOD边界。最后，我们动态重加权双模态代理的贡献度，从而获得对分布偏移具有鲁棒性的校准OOD分数。在标准基准上的大量实验表明，CoEvo取得了最先进的性能，在ImageNet-1K数据集上相较于强负标签基线，AUROC提升1.33%，FPR95降低45.98%。

0

相关内容

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

专知会员服务

18+阅读 · 2024年10月17日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

分布外OOD检测的最新进展：问题与方法

分布外OOD检测的最新进展：问题与方法

专知会员服务

22+阅读 · 2024年9月23日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《分布外泛化评估》综述

《分布外泛化评估》综述

专知会员服务

44+阅读 · 2024年3月6日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

【NeurIPS2020】基于能量的分布外检测

【NeurIPS2020】基于能量的分布外检测

专知会员服务

14+阅读 · 2020年10月10日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

AP-OOD: Attention Pooling for Out-of-Distribution Detection

Arxiv

0+阅读 · 2月5日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 2月2日

Diffusion-based Layer-wise Semantic Reconstruction for Unsupervised Out-of-Distribution Detection

Arxiv

0+阅读 · 2月2日

DAVIS: OOD Detection via Dominant Activations and Variance for Increased Separation

Arxiv

0+阅读 · 1月30日

DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection

Arxiv

0+阅读 · 1月27日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 1月27日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 1月26日

Out-of-Distribution Detection Based on Total Variation Estimation

Arxiv

0+阅读 · 1月22日

Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model

Arxiv

0+阅读 · 1月20日

One Model, Many Behaviors: Training-Induced Effects on Out-of-Distribution Detection

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

0+阅读 · 13分钟前

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

相关VIP内容

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

专知会员服务

18+阅读 · 2024年10月17日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

分布外OOD检测的最新进展：问题与方法

分布外OOD检测的最新进展：问题与方法

专知会员服务

22+阅读 · 2024年9月23日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《分布外泛化评估》综述

《分布外泛化评估》综述

专知会员服务

44+阅读 · 2024年3月6日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

【NeurIPS2020】基于能量的分布外检测

【NeurIPS2020】基于能量的分布外检测

专知会员服务

14+阅读 · 2020年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

军事欺骗：供作战战术指挥官使用的工具

综述 | 世界动作模型：少做梦，多行动

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

AP-OOD: Attention Pooling for Out-of-Distribution Detection

Arxiv

0+阅读 · 2月5日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 2月2日

Diffusion-based Layer-wise Semantic Reconstruction for Unsupervised Out-of-Distribution Detection

Arxiv

0+阅读 · 2月2日

DAVIS: OOD Detection via Dominant Activations and Variance for Increased Separation

Arxiv

0+阅读 · 1月30日

DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection

Arxiv

0+阅读 · 1月27日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 1月27日

SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification

Arxiv

0+阅读 · 1月26日

Out-of-Distribution Detection Based on Total Variation Estimation

Arxiv

0+阅读 · 1月22日

Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model

Arxiv

0+阅读 · 1月20日

One Model, Many Behaviors: Training-Induced Effects on Out-of-Distribution Detection

Arxiv

0+阅读 · 1月15日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员