Language-aligned vision foundation models perform strongly across diverse downstream tasks. Yet, their learned representations remain opaque, making interpreting their decision-making difficult. Recent work decompose these representations into human-interpretable concepts, but provide poor spatial grounding and are limited to image classification tasks. In this work, we propose CFM, a language-aligned concept foundation model for vision that provides fine-grained concepts, which are human-interpretable and spatially grounded in the input image. When paired with a foundation model with strong semantic representations, we get explanations for any of its downstream tasks. Examining local co-occurrence dependencies of concepts allows us to define concept relationships through which we improve concept naming and obtain richer explanations. On benchmark data, we show that CFM provides performance on classification, segmentation, and captioning that is competitive with opaque foundation models while providing fine-grained, high quality concept-based explanations. Code at https://github.com/kawi19/CFM.


翻译:语言对齐的视觉基础模型在多种下游任务中表现出色。然而,其学习到的表征仍然不透明,使得解释其决策过程变得困难。近期研究尝试将这些表征分解为人类可解释的概念,但提供的空间定位能力较弱,且仅限于图像分类任务。在本工作中,我们提出了CFM,一种面向视觉的语言对齐概念基础模型,它能够提供细粒度、人类可解释且在输入图像中具有空间定位的概念。当与具有强大语义表征的基础模型结合时,我们可以为其任何下游任务提供解释。通过分析概念间的局部共现依赖关系,我们能够定义概念间的关系,从而改进概念命名并获得更丰富的解释。在基准数据上的实验表明,CFM在分类、分割和描述生成任务上的性能可与不透明的基础模型相媲美,同时能够提供细粒度、高质量、基于概念的解释。代码位于 https://github.com/kawi19/CFM。

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
2+阅读 · 4月11日
相关VIP内容
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员