Despite remarkable recent advances, making object-centric learning work for complex natural scenes remains the main challenge. The recent success of adopting the transformer-based image generative model in object-centric learning suggests that having a highly expressive image generator is crucial for dealing with complex scenes. In this paper, inspired by this observation, we aim to answer the following question: can we benefit from the other pillar of modern deep generative models, i.e., the diffusion models, for object-centric learning and what are the pros and cons of such a model? To this end, we propose a new object-centric learning model, Latent Slot Diffusion (LSD). LSD can be seen from two perspectives. From the perspective of object-centric learning, it replaces the conventional slot decoders with a latent diffusion model conditioned on the object slots. Conversely, from the perspective of diffusion models, it is the first unsupervised compositional conditional diffusion model which, unlike traditional diffusion models, does not require supervised annotation such as a text description to learn to compose. In experiments on various object-centric tasks, including the FFHQ dataset for the first time in this line of research, we demonstrate that LSD significantly outperforms the state-of-the-art transformer-based decoder, particularly when the scene is more complex. We also show a superior quality in unsupervised compositional generation.


翻译:尽管近年来取得了显著进展,但使面向对象学习适用于复杂自然场景仍是主要挑战。基于Transformer的图像生成模型在面向对象学习中的近期成功表明,拥有高表达能力的图像生成器对于处理复杂场景至关重要。受此启发,本文旨在回答以下问题:现代深度生成模型的另一支柱——即扩散模型——能否为面向对象学习带来益处,以及此类模型的优缺点是什么?为此,我们提出了一种新的面向对象学习模型——潜槽扩散(Latent Slot Diffusion, LSD)。LSD可从两个视角审视:从面向对象学习视角看,它用基于对象槽条件生成的潜扩散模型替代了传统的槽解码器;反之,从扩散模型视角看,它是首个无监督组合条件扩散模型,与传统扩散模型不同,它无需依赖文本描述等监督标注即可学习组合生成。在多个面向对象任务(包括该研究领域首次引入的FFHQ数据集)上的实验表明,LSD显著优于最先进的基于Transformer的解码器,尤其在场景更为复杂时表现突出。此外,我们在无监督组合生成任务中展现了卓越的生成质量。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
27+阅读 · 2021年1月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月9日
Arxiv
15+阅读 · 2022年10月27日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
46+阅读 · 2022年9月6日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
最新内容
ICML 2026|ECA:面向开放式图文生成的高效持续对齐
俄乌战场地面机器人如何改写战争规则
专知会员服务
3+阅读 · 今天13:58
《无人水面艇文献综述与结构设计》135页
专知会员服务
10+阅读 · 6月13日
乌克兰战场背后的新武器
专知会员服务
7+阅读 · 6月12日
基于博弈论的陆军人机协同(长文报告)
专知会员服务
13+阅读 · 6月12日
相关VIP内容
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
27+阅读 · 2021年1月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Arxiv
0+阅读 · 2023年5月9日
Arxiv
15+阅读 · 2022年10月27日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
46+阅读 · 2022年9月6日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
19+阅读 · 2020年12月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员