Wasserstein-Aligned Localisation for VLM-Based Distributional OOD Detection in Medical Imaging - 专知论文

会员服务 ·

0

相似度 · MoDELS · Performer · 推断 · 可辨认的 ·

Wasserstein-Aligned Localisation for VLM-Based Distributional OOD Detection in Medical Imaging

翻译：暂无翻译

Bernhard Kainz,Johanna P Mueller,Matthew Baugh,Cosmin Bercea

from arxiv, submitted to MICCAI 2026

Zero-shot anomaly localisation via vision-language models (VLMs) offers a compelling approach for rare pathology detection, yet its performance is fundamentally limited by the absence of healthy anatomical context. We reformulate zero-shot localisation as a comparative inference problem in which anomalies are identified through structured comparison against reference distributions of normal anatomy. We introduce WALDO, a training-free framework grounded in optimal transport theory that enables comparative reasoning through: (i) entropy-weighted Sliced Wasserstein distances for anatomically-aware reference selection from DINOv2 patch distributions, (ii) Goldilocks zone sampling exploiting the non-monotonic relationship between reference similarity and localisation accuracy, and (iii) self-consistency aggregation via weighted non-maximum suppression. We theoretically analyse the Goldilocks effect through distributional divergence, and show that references with moderate similarity minimize a bias-variance trade-off in comparative visual reasoning. On the NOVA brain MRI benchmark, WALDO with Qwen2.5-VL-72B achieves $43.5_{\pm1.6}\%$ mAP@30 (95\% CI: [40.4, 46.7]), representing a 19\% relative improvement over zero-shot baselines. Cross-model evaluation shows consistent gains: GPT-4o achieves $32.0_{\pm6.5}\%$ and Qwen3-VL-32B achieves $32.0_{\pm6.6}\%$ mAP@30. Paired McNemar tests confirm statistical significance ($p<0.01$). Source code is available at https://github.com/bkainz/WALDO_MICCAI26_demo .

翻译：暂无翻译

0

相关内容

相似度

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

RSS 2024 | NaVid：视觉语言导航大模型

RSS 2024 | NaVid：视觉语言导航大模型

专知会员服务

34+阅读 · 2024年6月9日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

专知会员服务

21+阅读 · 2024年3月9日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

AI科技评论

19+阅读 · 2020年6月21日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

泡泡机器人SLAM

13+阅读 · 2019年9月20日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

张量框架下高维遥感影像空-谱协同解译方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

外源性外泌体对mTOR通路参与柯萨奇病毒B3诱导细胞凋亡的调控作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

剩余浮力影响下AUV地形跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

放疗中非均匀VMAT模型建立与技术实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于表型和靶点互作网络的罕见病药物重定位计算模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏植被覆盖条件下土壤盐渍化高光谱遥感定量反演与动态监测

国家自然科学基金

0+阅读 · 2014年12月31日

骨髓基质神经干细胞联合法舒地尔多视角治疗AD的探索

国家自然科学基金

0+阅读 · 2014年12月31日

基于VMI-Hub的装配系统协同补货决策模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CADRE: Stable, Parameter Efficient Adaptation of Medical Vision Language Models with Bounded Forgetting and Prior Drift

CADRE: Stable, Parameter Efficient Adaptation of Medical Vision Language Models with Bounded Forgetting and Prior Drift

Arxiv

0+阅读 · 6月22日

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs

Arxiv

0+阅读 · 6月19日

PROTON: Prototype-Based Test-Time Online OOD Detection for Medical VLMs

Arxiv

0+阅读 · 6月18日

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Arxiv

0+阅读 · 6月18日

Beyond the Linear Separability Ceiling: Aligning Representations in VLMs

Arxiv

0+阅读 · 6月17日

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

Arxiv

0+阅读 · 6月17日

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

Arxiv

0+阅读 · 6月17日

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

Arxiv

0+阅读 · 6月17日

Wasserstein-Aligned Localisation for VLM-Based Distributional OOD Detection in Medical Imaging

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

RSS 2024 | NaVid：视觉语言导航大模型

RSS 2024 | NaVid：视觉语言导航大模型

专知会员服务

34+阅读 · 2024年6月9日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

专知会员服务

21+阅读 · 2024年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

AI科技评论

19+阅读 · 2020年6月21日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

泡泡机器人SLAM

13+阅读 · 2019年9月20日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

相关论文

CADRE: Stable, Parameter Efficient Adaptation of Medical Vision Language Models with Bounded Forgetting and Prior Drift

CADRE: Stable, Parameter Efficient Adaptation of Medical Vision Language Models with Bounded Forgetting and Prior Drift

Arxiv

0+阅读 · 6月22日

SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs

Arxiv

0+阅读 · 6月19日

PROTON: Prototype-Based Test-Time Online OOD Detection for Medical VLMs

Arxiv

0+阅读 · 6月18日

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

Occ-VLM: Occupancy Grounded Vision Language Model for Indoor Scene Understanding

Arxiv

0+阅读 · 6月18日

Beyond the Linear Separability Ceiling: Aligning Representations in VLMs

Arxiv

0+阅读 · 6月17日

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

Arxiv

0+阅读 · 6月17日

Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation

Arxiv

0+阅读 · 6月17日

Hallucination Detection and Correction in Medical VLMs via Counter-Evidence Verification

Arxiv

0+阅读 · 6月17日

Wasserstein-Aligned Localisation for VLM-Based Distributional OOD Detection in Medical Imaging

Arxiv

0+阅读 · 5月6日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

张量框架下高维遥感影像空-谱协同解译方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

外源性外泌体对mTOR通路参与柯萨奇病毒B3诱导细胞凋亡的调控作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

剩余浮力影响下AUV地形跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

放疗中非均匀VMAT模型建立与技术实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于表型和靶点互作网络的罕见病药物重定位计算模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏植被覆盖条件下土壤盐渍化高光谱遥感定量反演与动态监测

国家自然科学基金

0+阅读 · 2014年12月31日

骨髓基质神经干细胞联合法舒地尔多视角治疗AD的探索

国家自然科学基金

0+阅读 · 2014年12月31日

基于VMI-Hub的装配系统协同补货决策模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员