Concept Bottleneck Models (CBMs) are interpretable models that route predictions through a layer of human-interpretable concepts. While widely studied in vision and, more recently, in NLP, CBMs remain largely unexplored in multimodal settings. For their explanations to be faithful, CBMs must satisfy two conditions: concepts must be properly detected, and concept representations must encode only their intended semantics, without smuggling extraneous task-relevant or inter-concept information into final predictions, a phenomenon known as leakage. Existing approaches treat concept detection and leakage mitigation as separate problems, and typically improve one at the expense of predictive accuracy. In this work, we introduce f-CBM, a faithful multimodal CBM framework built on a vision-language backbone that jointly targets both aspects through two complementary strategies: a differentiable leakage loss to mitigate leakage, and a Kolmogorov-Arnold Network prediction head that provides sufficient expressiveness to improve concept detection. Experiments demonstrate that f-CBM achieves the best trade-off between task accuracy, concept detection, and leakage reduction, while applying seamlessly to both image and text or text-only datasets, making it versatile across modalities.


翻译:概念瓶颈模型(CBMs)是一种可解释的模型,其通过一层人类可解释的概念层来传递预测。尽管在视觉领域已得到广泛研究,最近也在自然语言处理领域有所探索,但CBMs在多模态场景中很大程度上仍未得到充分研究。为了使其解释具有可信性,CBMs必须满足两个条件:概念必须被正确检测,且概念表示必须仅编码其预期语义,而不应将额外的任务相关信息或概念间信息“泄露”到最终预测中,这种现象被称为泄漏。现有方法将概念检测和泄漏缓解视为两个独立的问题,并且通常以牺牲预测准确性为代价来改进其中一方面。在本工作中,我们提出了f-CBM,一个基于视觉-语言主干网络构建的可信多模态CBM框架,它通过两种互补策略共同解决这两个方面:一种可微分的泄漏损失函数来缓解泄漏,以及一个提供足够表达能力以改进概念检测的Kolmogorov-Arnold Network预测头。实验表明,f-CBM在任务准确性、概念检测和泄漏减少之间实现了最佳权衡,同时可无缝应用于图像和文本或纯文本数据集,使其具备跨模态的通用性。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
多模态基础模型的机制可解释性综述
专知会员服务
43+阅读 · 2025年2月28日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
专知会员服务
149+阅读 · 2020年9月6日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 3月16日
Arxiv
10+阅读 · 2023年12月5日
Arxiv
18+阅读 · 2023年9月2日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
1+阅读 · 今天15:12
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
1+阅读 · 今天15:06
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
1+阅读 · 今天14:48
《定向能武器交战授权治理管道》
专知会员服务
1+阅读 · 今天14:41
《人工智能与海军作战》最新报告
专知会员服务
1+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
2+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关VIP内容
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员