Text-to-image diffusion models exhibit remarkable generative capabilities, but lack precise control over object counts and spatial arrangements. This work introduces a two-stage system to address these compositional limitations. The first stage employs a Large Language Model (LLM) to generate a structured layout from a list of objects. The second stage uses a layout-conditioned diffusion model to synthesize a photorealistic image adhering to this layout. We find that task decomposition is critical for LLM-based spatial planning; by simplifying the initial generation to core objects and completing the layout with rule-based insertion, we improve object recall from 57.2% to 99.9% for complex scenes. For image synthesis, we compare two leading conditioning methods: ControlNet and GLIGEN. After domain-specific finetuning on table-setting datasets, we identify a key trade-off: ControlNet preserves text-based stylistic control but suffers from object hallucination, while GLIGEN provides superior layout fidelity at the cost of reduced prompt-based controllability. Our end-to-end system successfully generates images with specified object counts and plausible spatial arrangements, demonstrating the viability of a decoupled approach for compositionally controlled synthesis.


翻译:文本到图像扩散模型展现出卓越的生成能力,但在物体数量与空间布局的精确控制方面存在不足。本研究提出一种两阶段系统以解决这些组合限制。第一阶段采用大型语言模型(LLM)从物体列表中生成结构化布局;第二阶段使用布局条件扩散模型合成符合该布局的逼真图像。我们发现任务分解对基于LLM的空间规划至关重要:通过将初始生成简化为核心物体,并采用基于规则的插入完成布局,复杂场景中的物体召回率从57.2%提升至99.9%。在图像合成阶段,我们比较了两种主流条件控制方法:ControlNet与GLIGEN。通过在餐桌布置数据集上进行领域特定微调后,我们识别出关键权衡:ControlNet能保持基于文本的风格控制,但存在物体幻觉问题;而GLIGEN提供更优的布局保真度,但降低了基于提示词的可控性。我们的端到端系统成功生成具有指定物体数量与合理空间布局的图像,验证了解耦方法在组合可控合成中的可行性。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员