Object binding, the brain's ability to bind the many features that collectively represent an object into a coherent whole, is central to human cognition. It groups low-level perceptual features into high-level object representations, stores those objects efficiently and compositionally in memory, and supports human reasoning about individual object instances. While prior work often imposes object-centric attention (e.g., Slot Attention) explicitly to probe these benefits, it remains unclear whether this ability naturally emerges in pre-trained Vision Transformers (ViTs). Intuitively, they could: recognizing which patches belong to the same object should be useful for downstream prediction and thus guide attention. Motivated by the quadratic nature of self-attention, we hypothesize that ViTs represent whether two patches belong to the same object, a property we term IsSameObject. We decode IsSameObject from patch embeddings across ViT layers using a quadratic similarity probe, which reaches over 90% accuracy. Crucially, this object-binding capability emerges reliably in DINO, CLIP, and ImageNet-supervised ViTs, but is markedly weaker in MAE, suggesting that binding is not a trivial architectural artifact, but an ability acquired through specific pretraining objectives. We further discover that IsSameObject is encoded in a low-dimensional subspace on top of object features, and that this signal actively guides attention. Ablating IsSameObject from model activations degrades downstream performance and works against the learning objective, implying that emergent object binding naturally serves the pretraining objective. Our findings challenge the view that ViTs lack object binding and highlight how symbolic knowledge of "which parts belong together" emerges naturally in a connectionist system.


翻译:物体绑定是大脑将共同表征物体的众多特征整合为连贯整体的能力,这对人类认知至关重要。它将低层次感知特征组合成高层次物体表征,以高效且组合的方式将这些物体存储在记忆中,并支持人类对个体物体实例的推理。尽管先前研究常通过显式施加物体中心注意力(如Slot Attention)来探究这些优势,但预训练视觉Transformer(ViTs)中是否自然涌现出这种能力仍不明确。直观而言,它们可能具备这种能力:识别哪些图像块属于同一物体应有助于下游预测,从而引导注意力机制。基于自注意力机制的二次特性,我们假设ViTs能够表征两个图像块是否属于同一物体,这一特性我们称为IsSameObject。通过二次相似性探针从ViT各层的图像块嵌入中解码IsSameObject,其准确率超过90%。关键的是,这种物体绑定能力在DINO、CLIP和ImageNet监督训练的ViTs中均可靠地涌现,但在MAE中明显较弱,表明绑定并非简单的架构产物,而是通过特定预训练目标获得的能力。我们进一步发现IsSameObject编码在物体特征之上的低维子空间中,且该信号能主动引导注意力。从模型激活中消除IsSameObject会降低下游性能并违背学习目标,这意味着涌现的物体绑定能力自然服务于预训练目标。我们的发现挑战了“ViTs缺乏物体绑定能力”的观点,并揭示了“哪些部分属于同一整体”的符号化知识如何在连接主义系统中自然涌现。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
25+阅读 · 2025年7月2日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
144页ppt!《Transformers》全面讲解,附视频
专知会员服务
118+阅读 · 2023年1月1日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员