In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.


翻译:上下文图像生成与编辑(ICGE)允许用户通过交错的图像-文本提示来指定视觉概念,这要求模型对用户意图进行精确理解并忠实执行。尽管近期出现的统一多模态模型展现出有前景的理解能力,但这些优势往往未能有效迁移至图像生成任务。我们提出Re-Align,一个通过结构化推理引导的对齐来弥合理解与生成之间差距的统一框架。其核心是上下文思维链(IC-CoT),这是一种结构化推理范式,能够解耦语义引导与参考关联,提供清晰的文本目标并减轻参考图像间的混淆。此外,Re-Align引入了一种有效的强化学习训练方案,该方案利用代理奖励来衡量结构化推理文本与生成图像之间的对齐程度,从而提升模型在ICGE任务上的整体性能。大量实验验证,Re-Align在上下文图像生成与编辑任务上均优于模型规模和资源相当的主流方法。

0
下载
关闭预览

相关内容

IEEE国际需求工程会议是研究人员、实践者、教育工作者和学生展示和讨论需求工程学科最新创新、经验和关注点的首要国际论坛。这次会议将为学术界、政府和工业界提供一个广泛的项目,其中包括几位杰出的主旨演讲人和三天的会议,会议内容包括论文、专题讨论、海报和演示。官网链接:https://re20.org/
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员