The widespread adoption of Vision-Language Models (VLMs) across fields has amplified concerns about model interpretability. Distressingly, these models are often treated as black-boxes, with limited or non-existent investigation of their decision making process. Despite numerous post- and ante-hoc interepretability methods, systematic and objective evaluation of the learned representations remains limited, particularly for sparsity-aware methods that are increasingly considered to "induce interpretability". In this work, we focus on Concept Bottleneck Models and investigate how different modeling decisions affect the emerging representations. We introduce the notion of clarity, a measure, capturing the interplay between the downstream performance and the sparsity and precision of the concept representation, while proposing an interpretability assessment framework using datasets with ground truth concept annotations. We consider both VLM- and attribute predictor-based CBMs, and three different sparsity-inducing strategies: per example $\ell_1, \ell_0$ and Bernoulli-based formulations. Our experiments reveal a critical trade-off between flexibility and interpretability, under which a given method can exhibit markedly different behaviors even at comparable performance levels. The code will be made publicly available upon publication.


翻译:视觉语言模型在各领域的广泛应用加剧了人们对模型可解释性的担忧。令人不安的是,这些模型常被视为黑箱,其决策过程的研究极为有限甚至完全缺失。尽管存在大量事后与事前可解释性方法,对学习表征的系统性客观评估仍然不足,尤其对于日益被认为能"诱导可解释性"的稀疏感知方法。本研究聚焦概念瓶颈模型,探究不同建模决策如何影响涌现的表征。我们引入清晰度的概念——一种衡量指标,捕捉下游性能与概念表征的稀疏性及精确度之间的相互作用,同时提出利用具有真实概念标注数据集的解释性评估框架。我们同时考虑了基于VLM和属性预测器的CBM,以及三种不同的稀疏诱导策略:基于每样本的$\ell_1$、$\ell_0$和伯努利公式。实验揭示了灵活性与可解释性之间的关键权衡,在此权衡下,即使性能水平相当,给定方法也可能表现出显著不同的行为特征。代码将在论文发表后公开。

0
下载
关闭预览

相关内容

可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
迈向透明人工智能(AI):可解释性语言模型综述
专知会员服务
15+阅读 · 2025年9月29日
视觉识别中的可解释性综述
专知会员服务
23+阅读 · 2025年7月17日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
迈向透明人工智能(AI):可解释性语言模型综述
专知会员服务
15+阅读 · 2025年9月29日
视觉识别中的可解释性综述
专知会员服务
23+阅读 · 2025年7月17日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员