Decomposing complex data into factorized representations can reveal reusable components and enable synthesizing new samples via component recombination. We investigate this in the context of diffusion-based models that learn factorized latent spaces without factor-level supervision. In images, factors can capture background, illumination, and object attributes; in robotic videos, they can capture reusable motion components. To improve both latent factor discovery and quality of compositional generation, we introduce an adversarial training signal via a discriminator trained to distinguish between single-source samples and those generated by recombining factors across sources. By optimizing the generator to fool this discriminator, we encourage physical and semantic consistency in the resulting recombinations. Our method outperforms implementations of prior baselines on CelebA-HQ, Virtual KITTI, CLEVR, and Falcor3D, achieving lower FID scores and better disentanglement as measured by MIG and MCC. Furthermore, we demonstrate a novel application to robotic video trajectories: by recombining learned action components, we generate diverse sequences that significantly increase state-space coverage for exploration on the LIBERO benchmark.


翻译:将复杂数据分解为因子化表示可以揭示可复用组件,并支持通过组件重组合成新样本。本研究在基于扩散的模型框架下探讨此问题,该模型可在无因子级监督的情况下学习因子化潜在空间。在图像中,因子可捕捉背景、光照与物体属性;在机器人视频中,则可捕捉可复用的运动组件。为提升潜在因子发现能力与组合生成质量,我们引入通过判别器实现的对抗训练信号:该判别器经训练可区分单源样本与跨源因子重组生成的样本。通过优化生成器以欺骗该判别器,我们促使重组结果具有物理与语义一致性。在CelebA-HQ、Virtual KITTI、CLEVR和Falcor3D数据集上,本方法优于现有基线实现,获得了更低的FID分数,并通过MIG和MCC指标测得更好的解耦效果。此外,我们展示了在机器人视频轨迹中的创新应用:通过重组已学习的动作组件,可生成多样化序列,显著提升LIBERO基准测试中探索任务的状态空间覆盖率。

0
下载
关闭预览

相关内容

重审扩散模型:从生成式预训练到一步生成
专知会员服务
14+阅读 · 2025年6月12日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
最新《图嵌入组合优化》综述论文,40页pdf
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
重审扩散模型:从生成式预训练到一步生成
专知会员服务
14+阅读 · 2025年6月12日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员