We propose a diffusion-based approach for Text-to-Image (T2I) generation with consistent and interactive 3D layout control and editing. While prior methods improve spatial adherence using 2D cues or iterative copy-warp-paste strategies, they often distort object geometry and fail to preserve consistency across edits. To address these limitations, we introduce a framework for Positioning Objects Consistently and Interactively (POCI-Diff), a novel formulation for jointly enforcing 3D geometric constraints and instance-level semantic binding within a unified diffusion process. Our method enables explicit per-object semantic control by binding individual text descriptions to specific 3D bounding boxes through Blended Latent Diffusion, allowing one-shot synthesis of complex multi-object scenes. We further propose a warping-free generative editing pipeline that supports object insertion, removal, and transformation via regeneration rather than pixel deformation. To preserve object identity and consistency across edits, we condition the diffusion process on reference images using IP-Adapter, enabling coherent object appearance throughout interactive 3D editing while maintaining global scene coherence. Experimental results demonstrate that POCI-Diff produces high-quality images consistent with the specified 3D layouts and edits, outperforming state-of-the-art methods in both visual fidelity and layout adherence while eliminating warping-induced geometric artifacts.


翻译:我们提出了一种基于扩散的方法,用于实现具有一致性且可交互的三维布局控制与编辑的文生图生成。现有方法虽然利用二维线索或迭代的复制-扭曲-粘贴策略来改善空间遵循度,但它们常常扭曲物体几何结构,并且难以在多次编辑间保持一致性。为解决这些局限性,我们引入了一个用于一致性与交互式物体定位的框架(POCI-Diff),这是一种新颖的建模方法,可在统一的扩散过程中同时施加三维几何约束和实例级语义绑定。我们的方法通过混合潜在扩散将单个文本描述绑定到特定的三维边界框,实现了对每个物体的显式语义控制,从而能够一次性合成复杂的多物体场景。我们进一步提出了一种无需扭曲的生成式编辑流程,该流程通过重新生成而非像素变形,支持物体的插入、移除和变换。为了在多次编辑间保持物体身份和一致性,我们利用IP-Adapter将参考图像作为扩散过程的条件,从而在交互式三维编辑过程中实现连贯的物体外观,同时保持全局场景的一致性。实验结果表明,POCI-Diff能生成与指定三维布局和编辑操作一致的高质量图像,在视觉保真度和布局遵循度方面均优于现有先进方法,并消除了由扭曲引起的几何伪影。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
三维视觉中的扩散模型:综述
专知会员服务
32+阅读 · 2024年10月9日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员