Self-supervised Vision Transformers (ViTs) like DINO show an emergent ability to discover objects, typically observed in [CLS] token attention maps of the final layer. However, these maps often contain spurious activations resulting in poor localization of objects. This is because the [CLS] token, trained on an image-level objective, summarizes the entire image instead of focusing on objects. This aggregation dilutes the object-centric information existing in the local, patch-level interactions. We analyze this by computing inter-patch similarity using patch-level attention components (query, key, and value) across all layers. We find that: (1) Object-centric properties are encoded in the similarity maps derived from all three components ($q, k, v$), unlike prior work that uses only key features or the [CLS] token. (2) This object-centric information is distributed across the network, not just confined to the final layer. Based on these insights, we introduce Object-DINO, a training-free method that extracts this distributed object-centric information. Object-DINO clusters attention heads across all layers based on the similarities of their patches and automatically identifies the object-centric cluster corresponding to all objects. We demonstrate Object-DINO's effectiveness on two applications: enhancing unsupervised object discovery (+3.6 to +12.4 CorLoc gains) and mitigating object hallucination in Multimodal Large Language Models by providing visual grounding. Our results demonstrate that using this distributed object-centric information improves downstream tasks without additional training.


翻译:自监督视觉Transformer(如DINO)展现出发现物体的涌现能力,这通常体现在最后一层[CLS]令牌注意力图中。然而,这些图常常包含虚假激活,导致物体定位不佳。这是因为基于图像级目标训练的[CLS]令牌总结了整个图像,而非聚焦于物体。这种聚合稀释了存在于局部补丁级交互中的面向对象信息。我们通过计算跨所有层的补丁级注意力组件(查询、键、值)的补丁间相似性来分析这一点。我们发现:(1)与仅使用键特征或[CLS]令牌的先前工作不同,面向对象属性编码在所有三个组件($q, k, v$)导出的相似性图中。(2)这种面向对象信息分布在整个网络中,不仅限于最后一层。基于这些洞察,我们引入了Object-DINO,一种无需训练的方法,用于提取这种分布式面向对象信息。Object-DINO根据补丁的相似性对跨所有层的注意力头进行聚类,并自动识别对应所有物体的面向对象聚类。我们在两个应用中展示了Object-DINO的有效性:增强无监督物体发现(+3.6至+12.4 CorLoc增益)以及通过提供视觉定位来缓解多模态大语言模型中的物体幻觉。我们的结果表明,使用这种分布式面向对象信息可在无需额外训练的情况下改进下游任务。

0
下载
关闭预览

相关内容

面向图像分割的自监督学习:全面综述
专知会员服务
13+阅读 · 2025年5月26日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
专知会员服务
65+阅读 · 2021年4月11日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
面向图像分割的自监督学习:全面综述
专知会员服务
13+阅读 · 2025年5月26日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
专知会员服务
65+阅读 · 2021年4月11日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员