Existing multi-object image generation methods face difficulties in achieving precise alignment between localized image generation regions and their corresponding semantics based on language descriptions, frequently resulting in inconsistent object quantities and attribute aliasing. To mitigate this limitation, mainstream approaches typically rely on external control signals to explicitly constrain the spatial layout, local semantic and visual attributes of images. However, this strong dependency makes the input format rigid, rendering it incompatible with the heterogeneous resource conditions of users and diverse constraint requirements. To address these challenges, we propose MoGen, a user-friendly multi-object image generation method. First, we design a Regional Semantic Anchor (RSA) module that precisely anchors phrase units in language descriptions to their corresponding image regions during the generation process, enabling text-to-image generation that follows quantity specifications for multiple objects. Building upon this foundation, we further introduce an Adaptive Multi-modal Guidance (AMG) module, which adaptively parses and integrates various combinations of multi-source control signals to formulate corresponding structured intent. This intent subsequently guides selective constraints on scene layouts and object attributes, achieving dynamic fine-grained control. Experimental results demonstrate that MoGen significantly outperforms existing methods in generation quality, quantity consistency, and fine-grained control, while exhibiting superior accessibility and control flexibility. Code is available at: https://github.com/Tear-kitty/MoGen/tree/master.


翻译:现有的多物体图像生成方法难以实现基于语言描述的局部图像生成区域与其对应语义之间的精确对齐,常导致物体数量不一致和属性混淆。为缓解这一局限性,主流方法通常依赖外部控制信号来显式约束图像的空间布局、局部语义及视觉属性。然而,这种强依赖性使得输入格式僵化,无法兼容用户异构的资源条件和多样化的约束需求。为应对这些挑战,我们提出了一种用户友好的多物体图像生成方法MoGen。首先,我们设计了一个区域语义锚定(RSA)模块,该模块在生成过程中将语言描述中的短语单元精确锚定至其对应的图像区域,从而实现遵循多物体数量规定的文本到图像生成。在此基础上,我们进一步引入了自适应多模态引导(AMG)模块,该模块自适应地解析并整合多源控制信号的各种组合,以构建相应的结构化意图。该意图随后引导对场景布局和物体属性的选择性约束,实现动态细粒度控制。实验结果表明,MoGen在生成质量、数量一致性和细粒度控制方面显著优于现有方法,同时展现出更优的易用性和控制灵活性。代码发布于:https://github.com/Tear-kitty/MoGen/tree/master。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员