Instruction-driven image editing with unified multimodal generative models has advanced rapidly, yet their underlying visual reasoning remains limited, leading to suboptimal performance on reasoning-centric edits. Reinforcement learning (RL) has been investigated for improving the quality of image editing, but it faces three key challenges: (1) limited reasoning exploration confined to denoising stochasticity, (2) biased reward fusion, and (3) unstable VLM-based instruction rewards. In this work, we propose ThinkRL-Edit, a reasoning-centric RL framework that decouples visual reasoning from image synthesis and expands reasoning exploration beyond denoising. To the end, we introduce Chain-of-Thought (CoT)-based reasoning sampling with planning and reflection stages prior to generation in online sampling, compelling the model to explore multiple semantic hypotheses and validate their plausibility before committing to a visual outcome. To avoid the failures of weighted aggregation, we propose an unbiased chain preference grouping strategy across multiple reward dimensions. Moreover, we replace interval-based VLM scores with a binary checklist, yielding more precise, lower-variance, and interpretable rewards for complex reasoning. Experiments show our method significantly outperforms prior work on reasoning-centric image editing, producing instruction-faithful, visually coherent, and semantically grounded edits.


翻译:基于指令驱动的图像编辑技术,借助统一的多模态生成模型,已取得快速发展,但其底层的视觉推理能力仍然有限,导致在以推理为核心的编辑任务上表现欠佳。强化学习已被研究用于提升图像编辑质量,但它面临三个关键挑战:(1) 局限于去噪随机性的有限推理探索,(2) 存在偏差的奖励融合,以及(3) 不稳定的基于视觉语言模型的指令奖励。在本工作中,我们提出了ThinkRL-Edit,这是一个以推理为核心的强化学习框架,它将视觉推理与图像合成解耦,并将推理探索扩展到去噪过程之外。为此,我们引入了基于思维链的推理采样方法,在在线采样的生成阶段之前加入规划和反思阶段,迫使模型在确定视觉结果之前探索多种语义假设并验证其合理性。为避免加权聚合的失效,我们提出了一种跨多个奖励维度的无偏链式偏好分组策略。此外,我们用二元检查清单替代了基于区间的视觉语言模型评分,从而为复杂推理提供了更精确、方差更低且可解释的奖励。实验表明,我们的方法在以推理为核心的图像编辑任务上显著优于先前工作,能够生成忠实于指令、视觉连贯且语义扎实的编辑结果。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员