Recent work leverages Vision Foundation Models as image encoders to boost the generative performance of latent diffusion models (LDMs), as their semantic feature distributions are easy to learn. However, such semantic features often lack low-level information (\eg, color and texture), leading to degraded reconstruction fidelity, which has emerged as a primary bottleneck in further scaling LDMs. To address this limitation, we propose LV-RAE, a representation autoencoder that augments semantic features with missing low-level information, enabling high-fidelity reconstruction while remaining highly aligned with the semantic distribution. We further observe that the resulting high-dimensional, information-rich latent make decoders sensitive to latent perturbations, causing severe artifacts when decoding generated latent and consequently degrading generation quality. Our analysis suggests that this sensitivity primarily stems from excessive decoder responses along directions off the data manifold. Building on these insights, we propose fine-tuning the decoder to increase its robustness and smoothing the generated latent via controlled noise injection, thereby enhancing generation quality. Experiments demonstrate that LV-RAE significantly improves reconstruction fidelity while preserving the semantic abstraction and achieving strong generative quality. Our code is available at https://github.com/modyu-liu/LVRAE.


翻译:近期研究利用视觉基础模型作为图像编码器,以提升潜在扩散模型(LDMs)的生成性能,因为其语义特征分布易于学习。然而,此类语义特征通常缺乏低级信息(例如颜色和纹理),导致重建保真度下降,这已成为进一步扩展LDMs的主要瓶颈。为克服这一限制,我们提出LV-RAE,一种表示自编码器,它通过补充缺失的低级信息来增强语义特征,从而实现高保真重建,同时保持与语义分布的高度对齐。我们进一步观察到,由此产生的高维、信息丰富的潜在表示使解码器对潜在扰动敏感,导致在解码生成潜在表示时产生严重伪影,从而降低生成质量。我们的分析表明,这种敏感性主要源于解码器在数据流形外方向上的过度响应。基于这些发现,我们提出通过微调解码器以增强其鲁棒性,并通过受控噪声注入平滑生成的潜在表示,从而提升生成质量。实验表明,LV-RAE在显著改善重建保真度的同时,保留了语义抽象能力并实现了强大的生成质量。我们的代码可在 https://github.com/modyu-liu/LVRAE 获取。

0
下载
关闭预览

相关内容

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类
专知会员服务
15+阅读 · 2025年3月1日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
专知会员服务
37+阅读 · 2021年10月16日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员