Concept bottleneck models (CBMs) predict a layer of human-named attributes before predicting a class, which makes their decisions auditable. On fine-grained recognition tasks the concept heads are usually free to attend anywhere in the image, so a head named for one body region can be satisfied by evidence on another. This work studies a part-factorized CBM that removes that freedom by construction. The method has three components built on a frozen DINOv3 vision transformer. A learned foreground gate, trained on DINOv3 patch features, suppresses background patches inside the part attention. A set of part queries cross-attends to patch features and each of the 312 CUB attributes is routed, through a fixed concept-to-part map, to read only from the part token its name implies. A learnable two-dimensional Gaussian prior, injected additively in log space into the attention logits, breaks the permutation symmetry among part queries; its means are initialized from the dataset-average keypoint location of each part, which requires no per-image keypoint supervision at training or test time. On CUB-200-2011 the spatial-prior model matches a fully supervised baseline (88.85% versus 88.95% top-1) while raising pointing accuracy by 16 points (52.6% versus 36.4%). Replacing bounding-box supervision with a PCA foreground target and combining it with the Gaussian prior removes all per-image supervision and reaches 88.6% top-1 at about 70% pointing accuracy. A keypoint-fraction sweep shows that 0.5% of the training set (about 27 images) suffices to initialize the prior with no measurable loss. Removing part identity entirely is the harder case: without any spatial prior, pointing accuracy collapses to $2.9\%$.


翻译:概念瓶颈模型通过预测由人类命名的属性层后再预测类别,使模型决策具有可审计性。在细粒度识别任务中,概念头通常可自由关注图像任意区域,导致命名用于某个身体部位的概念头可能被其他区域的证据激活。本文提出一种通过构建消除该自由度的部件分解概念瓶颈模型。该方法基于冻结的DINOv3视觉变换器构建三个组件:第一,学习型前景门控机制利用DINOv3图像块特征抑制部件注意力中的背景块;第二,一组部件查询通过交叉注意力与图像块特征交互,312个CUB属性通过固定概念-部件映射路由,仅从名称对应的部件标记中读取信息;第三,可学习的二维高斯先验以对数空间加法形式注入注意力对数中,打破部件查询间的置换对称性——其均值由数据集各部件平均关键点位置初始化,训练与测试阶段均无需单张图像的关键点标注。在CUB-200-2011数据集上,空间先验模型性能与全监督基线持平(top-1准确率88.85% vs 88.95%),同时将指向准确率提升16个百分点(52.6% vs 36.4%)。将边界框监督替换为PCA前景目标并与高斯先验结合后,完全消除每张图像的监督需求,在约70%指向准确率下达到88.6%的top-1准确率。关键点比例扫描实验表明,仅需训练集0.5%的图像(约27张)即可完成先验初始化且无精度损失。完全去除部件标识的极端情况显示,无任何空间先验时指向准确率骤降至$2.9\%$。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
领域特定基础模型概述:关键技术、应用与挑战
专知会员服务
25+阅读 · 2024年9月9日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
可解释的机器学习模型和架构
专知会员服务
92+阅读 · 2023年9月17日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
91+阅读 · 2020年7月23日
Attention!注意力机制模型最新综述(附下载)
THU数据派
29+阅读 · 2019年4月13日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员