Compositional generalization, the ability to recognize familiar parts in novel contexts, is a defining property of intelligent systems. Although modern models are trained on massive datasets, they still cover only a tiny fraction of the combinatorial space of possible inputs, raising the question of what structure representations must have to support generalization to unseen combinations. We formalize three desiderata for compositional generalization under standard training (divisibility, transferability, stability) and show they impose necessary geometric constraints: representations must decompose linearly into per-concept components, and these components must be orthogonal across concepts. This provides theoretical grounding for the Linear Representation Hypothesis: the linear structure widely observed in neural representations is a necessary consequence of compositional generalization. We further derive dimension bounds linking the number of composable concepts to the embedding geometry. Empirically, we evaluate these predictions across modern vision models (CLIP, SigLIP, DINO) and find that representations exhibit partial linear factorization with low-rank, near-orthogonal per-concept factors, and that the degree of this structure correlates with compositional generalization on unseen combinations. As models continue to scale, these conditions predict the representational geometry they may converge to. Code is available at https://github.com/oshapio/necessary-compositionality.


翻译:组合泛化——即在陌生语境中识别熟悉组成部分的能力——是智能系统的一项定义性特征。尽管现代模型通过海量数据集进行训练,这些数据仍仅覆盖可能输入组合空间的极小部分,这引发了一个核心问题:表征必须具备何种结构才能支持对未见组合的泛化?我们形式化了标准训练下组合泛化的三个理想特性(可分解性、可迁移性、稳定性),并证明它们施加了必要的几何约束:表征必须能线性分解为每个概念的独立分量,且这些分量在不同概念间必须正交。这为"线性表征假说"提供了理论依据:神经网络表征中广泛观察到的线性结构是组合泛化的必然结果。我们进一步推导出维度界限,将可组合概念的数量与嵌入几何关联起来。通过实证研究,我们在现代视觉模型(CLIP、SigLIP、DINO)中评估了这些预测,发现其表征呈现部分线性分解特征,具有低秩且近似正交的逐概念因子,且这种结构的程度与模型在未见组合上的组合泛化能力呈正相关。随着模型规模持续扩大,这些条件可预测其可能收敛的表征几何形态。代码发布于 https://github.com/oshapio/necessary-compositionality。

0
下载
关闭预览

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进
专知会员服务
21+阅读 · 2025年10月11日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
12+阅读 · 2025年6月3日
《多模态适应与泛化》进展综述:从传统方法到基础模型
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
61+阅读 · 2023年11月15日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
专知会员服务
26+阅读 · 2021年5月23日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《图嵌入组合优化》综述论文,40页pdf
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
常用的模型集成方法介绍:bagging、boosting 、stacking
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员