Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.


翻译:潜在扩散模型通过在压缩的潜在空间中操作来生成高质量图像,该空间通常通过图像分词器(如变分自编码器)获得。为了追求一种对生成友好的VAE,近期研究探索了利用视觉基础模型作为VAE的表征对齐目标,这模仿了LDM通常采用的方法。尽管这带来了一定的性能提升,但对VAE和LDM使用相同的对齐目标忽视了它们根本不同的表征需求。我们认为,虽然LDM受益于保留高层语义概念的潜在表示,但VAE应擅长语义解耦,从而能够以结构化的方式编码属性级信息。为解决此问题,我们提出了语义解耦VAE,其通过将其潜在空间与预训练VFM的语义层次对齐,明确优化了解耦表征学习。我们的方法采用一个非线性映射网络来转换VAE潜在表示,使其与VFM对齐,以弥合属性级解耦与高层语义之间的差距,从而为VAE学习提供有效指导。我们通过在属性预测任务上的线性探测来评估语义解耦,结果显示其与生成性能的提升存在强相关性。最后,使用Send-VAE,我们训练了基于流的Transformer SiTs;实验表明,Send-VAE显著加快了训练速度,并在ImageNet 256x256数据集上,在使用和不使用无分类器指导的情况下,分别达到了1.21和1.75的最新FID分数。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力
专知会员服务
17+阅读 · 2024年10月4日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员