Reliable zero-shot detection of out-of-distribution (OOD) inputs is critical for deploying vision-language models in open-world settings. However, the lack of labeled negatives in zero-shot OOD detection necessitates proxy signals that remain effective under distribution shift. Existing negative-label methods rely on a fixed set of textual proxies, which (i) sparsely sample the semantic space beyond in-distribution (ID) classes and (ii) remain static while only visual features drift, leading to cross-modal misalignment and unstable predictions. In this paper, we propose CoEvo, a training- and annotation-free test-time framework that performs bidirectional, sample-conditioned adaptation of both textual and visual proxies. Specifically, CoEvo introduces a proxy-aligned co-evolution mechanism to maintain two evolving proxy caches, which dynamically mines contextual textual negatives guided by test images and iteratively refines visual proxies, progressively realigning cross-modal similarities and enlarging local OOD margins. Finally, we dynamically re-weight the contributions of dual-modal proxies to obtain a calibrated OOD score that is robust to distribution shift. Extensive experiments on standard benchmarks demonstrate that CoEvo achieves state-of-the-art performance, improving AUROC by 1.33% and reducing FPR95 by 45.98% on ImageNet-1K compared to strong negative-label baselines.


翻译:在开放世界场景中部署视觉语言模型时,可靠的零样本分布外输入检测至关重要。然而,零样本OOD检测中缺乏带标注的负样本,因此需要能在分布偏移下保持有效的代理信号。现有的负标签方法依赖于固定的文本代理集合,这存在两个问题:(i) 对分布内类别之外的语义空间采样稀疏;(ii) 在视觉特征漂移时保持静态,导致跨模态失准和预测不稳定。本文提出CoEvo,一种无需训练和标注的测试时框架,通过双向、样本条件化的方式同时适配文本与视觉代理。具体而言,CoEvo引入代理对齐的协同演化机制,维护两个动态演化的代理缓存:在测试图像引导下动态挖掘上下文文本负样本,并迭代优化视觉代理,逐步实现跨模态相似度的重新对齐并扩大局部OOD边界。最后,我们动态重加权双模态代理的贡献度,从而获得对分布偏移具有鲁棒性的校准OOD分数。在标准基准上的大量实验表明,CoEvo取得了最先进的性能,在ImageNet-1K数据集上相较于强负标签基线,AUROC提升1.33%,FPR95降低45.98%。

0
下载
关闭预览

相关内容

视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化
专知会员服务
18+阅读 · 2024年10月17日
分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
《分布外泛化评估》综述
专知会员服务
43+阅读 · 2024年3月6日
【NeurIPS2020】基于能量的分布外检测
专知会员服务
14+阅读 · 2020年10月10日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员