Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.


翻译:大语言模型(LLMs)广泛应用于文本到图像(T2I)系统,但其通常仅用于文本编码,而去噪过程则由新训练的生成骨干网络处理。表示自编码器(RAEs)的出现将生成目标转向语义结构化的视觉表示,从而构建出与预训练LLM先验更兼容的潜空间。受多模态大语言模型(MLLMs)启发——其通过一个MLP投影器即可将干净的视觉表示与预训练LLM对齐——我们将MLLM本身改造为噪声表示编码器,将此机制从干净输入扩展到含噪输入。我们提出RepFusion,该方法利用MLLM的输出结果作为扩散Transformer的条件信号。在相似推理预算的控制对比实验中,RepFusion优于将等量计算资源分配给新初始化解码器的基线方法。这些结果表明,MLLMs为视觉表示去噪提供了强先验,且通过以动态噪声表示作为条件,现代T2I系统可在测试阶段将计算资源高效地投入到重复的MLLM条件处理中。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员