Although visual foundation models like DINOv2 provide state-of-the-art performance as feature extractors, their complex, high-dimensional representations create substantial hurdles for interpretability. This work proposes DINO-QPM, which converts these powerful but entangled features into contrastive, class-independent representations that are interpretable by humans. DINO-QPM is a lightweight interpretability adapter that pursues globally interpretable image classification, adapting the Quadratic Programming Enhanced Model (QPM) to operate on strictly frozen DINO backbones. While classification with visual foundation models typically relies on the \texttt{CLS} token, we deliberately diverge from this standard. By leveraging average-pooling, we directly connect the patch embeddings to the model's features and therefore enable spatial localisation of DINO-QPM's globally interpretable features within the input space. Furthermore, we apply a sparsity loss to minimise spatial scatter and background noise, ensuring that explanations are grounded in relevant object parts. With DINO-QPM we make the level of interpretability of QPM available as an adapter while exceeding the accuracy of DINOv2 linear probe. Evaluated through an introduced Plausibility metric and other interpretability metrics, extensive experiments demonstrate that DINO-QPM is superior to other applicable methods for frozen visual foundation models in both classification accuracy and explanation quality.


翻译:尽管像DINOv2这样的视觉基础模型作为特征提取器提供了最先进的性能,但其复杂的高维表示为可解释性带来了重大挑战。本文提出DINO-QPM,该方法将强大但纠缠的特征转换为具有对比性、类无关且人类可解释的表征。DINO-QPM是一种轻量级可解释性适配器,通过将二次规划增强模型(QPM)适配到完全冻结的DINO骨干网络上,实现全局可解释的图像分类。虽然视觉基础模型的分类通常依赖\texttt{CLS}令牌,我们有意背离这一标准做法。通过利用平均池化,我们将补丁嵌入直接连接到模型特征,从而能够在输入空间中定位DINO-QPM全局可解释特征的空间位置。此外,我们应用稀疏性损失以最小化空间分散和背景噪声,确保解释基于相关目标部件。借助DINO-QPM,我们使QPM的可解释性水平以适配器形式可用,同时超越DINOv2线性探测的准确率。通过引入的合理性指标及其他可解释性指标进行评估,大量实验表明,DINO-QPM在分类准确率和解释质量方面均优于其他适用于冻结视觉基础模型的方法。

0
下载
关闭预览

相关内容

视觉识别中的可解释性综述
专知会员服务
23+阅读 · 2025年7月17日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
27+阅读 · 2025年2月7日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员