Existing text-guided image editing methods primarily rely on end-to-end pixel-level inpainting paradigm. Despite its success in simple scenarios, this paradigm still significantly struggles with compositional editing tasks that require precise local control and complex multi-object spatial reasoning. This paradigm is severely limited by 1) the implicit coupling of planning and execution, 2) the lack of object-level control granularity, and 3) the reliance on unstructured, pixel-centric modeling. To address these limitations, we propose I2E, a novel "Decompose-then-Action" paradigm that revisits image editing as an actionable interaction process within a structured environment. I2E utilizes a Decomposer to transform unstructured images into discrete, manipulable object layers and then introduces a physics-aware Vision-Language-Action Agent to parse complex instructions into a series of atomic actions via Chain-of-Thought reasoning. Further, we also construct I2E-Bench, a benchmark designed for multi-instance spatial reasoning and high-precision editing. Experimental results on I2E-Bench and multiple public benchmarks demonstrate that I2E significantly outperforms state-of-the-art methods in handling complex compositional instructions, maintaining physical plausibility, and ensuring multi-turn editing stability.


翻译:现有的文本引导图像编辑方法主要依赖于端到端的像素级修复范式。尽管该范式在简单场景中取得了成功,但对于需要精确局部控制和复杂多目标空间推理的组合编辑任务,其表现仍存在显著不足。该范式主要受限于以下三点:1) 规划与执行的隐式耦合;2) 缺乏对象级控制粒度;3) 对非结构化、以像素为中心的建模方式的依赖。为克服这些局限,本文提出I2E——一种新颖的“先分解后执行”范式,将图像编辑重新定义为结构化环境中的可操作交互过程。I2E首先利用分解器将非结构化图像转换为离散、可操控的对象层,进而引入具备物理感知能力的视觉-语言-动作智能体,通过思维链推理将复杂指令解析为一系列原子操作。此外,我们还构建了I2E-Bench基准测试集,专门用于评估多实例空间推理与高精度编辑能力。在I2E-Bench及多个公开基准上的实验结果表明,I2E在处理复杂组合指令、保持物理合理性以及确保多轮编辑稳定性方面显著优于现有最先进方法。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员