Reasoning-augmented machine learning systems have shown improved performance in various domains, including image generation. However, existing reasoning-based methods for image generation either restrict reasoning to a single modality (image or text) or rely on high-quality reasoning data for fine-tuning. To tackle these limitations, we propose MILR, a test-time method that jointly reasons over image and text in a unified latent vector space. Reasoning in MILR is performed by searching through vector representations of discrete image and text tokens. Practically, this is implemented via the policy gradient method, guided by an image quality critic. We instantiate MILR within the unified multimodal understanding and generation (MUG) framework that natively supports language reasoning before image synthesis and thus facilitates cross-modal reasoning. The intermediate model outputs, which are to be optimized, serve as the unified latent space, enabling MILR to operate entirely at test time. We evaluate MILR on GenEval, T2I-CompBench, and WISE, achieving state-of-the-art results on all benchmarks. Notably, on knowledge-intensive WISE, MILR attains an overall score of 0.63, improving over the baseline by 80%. Our further analysis indicates that joint reasoning in the unified latent space is the key to its strong performance. Moreover, our qualitative studies reveal MILR's non-trivial ability in temporal and cultural reasoning, highlighting the efficacy of our reasoning method.


翻译:推理增强的机器学习系统已在包括图像生成在内的多个领域展现出性能提升。然而,现有的基于推理的图像生成方法要么将推理限制在单一模态(图像或文本),要么依赖于高质量推理数据进行微调。为应对这些局限,我们提出MILR,一种在测试时于统一的潜在向量空间中联合进行图像与文本推理的方法。MILR中的推理通过搜索离散图像与文本标记的向量表示来实现。具体而言,该方法通过策略梯度法实现,并由一个图像质量评判器引导。我们在统一的多模态理解与生成(MUG)框架内实例化MILR,该框架原生支持在图像合成前进行语言推理,从而促进跨模态推理。待优化的中间模型输出作为统一的潜在空间,使得MILR能够完全在测试时运行。我们在GenEval、T2I-CompBench和WISE上评估MILR,在所有基准测试中均取得了最先进的结果。值得注意的是,在知识密集型的WISE基准上,MILR获得了0.63的综合得分,较基线提升了80%。我们的进一步分析表明,在统一潜在空间中进行联合推理是其卓越性能的关键。此外,定性研究揭示了MILR在时间与文化推理方面的显著能力,凸显了我们推理方法的有效性。

0
下载
关闭预览

相关内容

Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员