Are Object-Centric Representations Better At Compositional Generalization? - 专知论文

会员服务 ·

0

泛化 · 表示 · 组合泛化 · 泛化能力 · 多样性 ·

Are Object-Centric Representations Better At Compositional Generalization?

翻译：以物体为中心的表示在组合泛化方面表现更优吗？

Ferdinand Kapl,Amir Mohammad Karimi Mamaghan,Maximilian Seitzer,Karl Henrik Johansson,Carsten Marr,Stefan Bauer,Andrea Dittadi

Compositional generalization, the ability to reason about novel combinations of familiar concepts, is fundamental to human cognition and a critical challenge for machine learning. Object-centric (OC) representations, which encode a scene as a set of objects, are often argued to support such generalization, but systematic evidence in visually rich settings is limited. We introduce a Visual Question Answering benchmark across three controlled visual worlds (CLEVRTex, Super-CLEVR, and MOVi-C) to measure how well vision encoders, with and without object-centric biases, generalize to unseen combinations of object properties. To ensure a fair and comprehensive comparison, we carefully account for training data diversity, sample size, representation size, downstream model capacity, and compute. We use DINOv2 and SigLIP2, two widely used vision encoders, as the foundation models and their OC counterparts. Our key findings reveal that (1) OC approaches are superior in harder compositional generalization settings; (2) original dense representations surpass OC only on easier settings and typically require substantially more downstream compute; and (3) OC models are more sample efficient, achieving stronger generalization with fewer images, whereas dense encoders catch up or surpass them only with sufficient data and diversity. Overall, object-centric representations offer stronger compositional generalization when any one of dataset size, training data diversity, or downstream compute is constrained.

翻译：组合泛化，即对熟悉概念的新颖组合进行推理的能力，是人类认知的基础，也是机器学习面临的关键挑战。以物体为中心（OC）的表示将场景编码为一组物体，常被认为支持此类泛化，但在视觉丰富场景中的系统性证据有限。我们引入了一个基于三个受控视觉世界（CLEVRTex、Super-CLEVR 和 MOVi-C）的视觉问答基准，以衡量具有或不具有物体中心偏见的视觉编码器对未见过的物体属性组合的泛化能力。为确保公平全面的比较，我们仔细考虑了训练数据多样性、样本量、表示大小、下游模型容量和计算量。我们使用 DINOv2 和 SigLIP2 这两种广泛使用的视觉编码器作为基础模型及其对应的 OC 版本。我们的主要发现表明：（1）在更困难的组合泛化场景中，OC 方法表现更优；（2）原始密集表示仅在较简单的场景中超越 OC，且通常需要显著更多的下游计算；（3）OC 模型样本效率更高，能用更少的图像实现更强的泛化，而密集编码器只有在数据足够且多样时才能赶上或超越它们。总体而言，当数据集大小、训练数据多样性或下游计算中的任何一项受到限制时，以物体为中心的表示能提供更强的组合泛化能力。

0

相关内容

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

25+阅读 · 1月16日

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

13+阅读 · 2025年7月16日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【DTU博士论文】结构化表示学习的泛化

【DTU博士论文】结构化表示学习的泛化

专知会员服务

53+阅读 · 2023年4月27日

【干货书】组合优化研究进展:旅行商的线性规划公式和其他困难的组合优化问题，154页pdf

【干货书】组合优化研究进展:旅行商的线性规划公式和其他困难的组合优化问题，154页pdf

专知会员服务

47+阅读 · 2023年2月10日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

【NeurIPS2019教程】机器学习中的组合性（Compositionality In Machine Learning）

【NeurIPS2019教程】机器学习中的组合性（Compositionality In Machine Learning）

专知会员服务

17+阅读 · 2019年12月16日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市知识流的表征及其结构演化的复杂性研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

若干组合几何全局优化问题的机械化算法

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

Arxiv

0+阅读 · 2月27日

Advancing Uncertain Combinatorics through Graphization, Hyperization, and Uncertainization: Fuzzy, Neutrosophic, Soft, Rough, and Beyond

Arxiv

0+阅读 · 2月22日

Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

Arxiv

0+阅读 · 2月19日

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Arxiv

0+阅读 · 2月17日

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

Arxiv

0+阅读 · 2月12日

Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

Arxiv

0+阅读 · 2月11日

What Do You Need for Compositional Generalization in Diffusion Planning?

Arxiv

0+阅读 · 2月9日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Evaluating Object-Centric Models beyond Object Discovery

Arxiv

0+阅读 · 2月7日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

1+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

1+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

1+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

2+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

1+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

25+阅读 · 1月16日

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

13+阅读 · 2025年7月16日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【DTU博士论文】结构化表示学习的泛化

【DTU博士论文】结构化表示学习的泛化

专知会员服务

53+阅读 · 2023年4月27日

【干货书】组合优化研究进展:旅行商的线性规划公式和其他困难的组合优化问题，154页pdf

【干货书】组合优化研究进展:旅行商的线性规划公式和其他困难的组合优化问题，154页pdf

专知会员服务

47+阅读 · 2023年2月10日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

【NeurIPS2019教程】机器学习中的组合性（Compositionality In Machine Learning）

【NeurIPS2019教程】机器学习中的组合性（Compositionality In Machine Learning）

专知会员服务

17+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

Arxiv

0+阅读 · 2月27日

Advancing Uncertain Combinatorics through Graphization, Hyperization, and Uncertainization: Fuzzy, Neutrosophic, Soft, Rough, and Beyond

Arxiv

0+阅读 · 2月22日

Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

Arxiv

0+阅读 · 2月19日

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Arxiv

0+阅读 · 2月17日

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

Arxiv

0+阅读 · 2月12日

Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

Arxiv

0+阅读 · 2月11日

What Do You Need for Compositional Generalization in Diffusion Planning?

Arxiv

0+阅读 · 2月9日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Evaluating Object-Centric Models beyond Object Discovery

Arxiv

0+阅读 · 2月7日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市知识流的表征及其结构演化的复杂性研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

若干组合几何全局优化问题的机械化算法

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员