迈向统一多模态模型的通用多图像编辑 (Towards Generalized Multi-Image Editing for Unified Multimodal Models) - 专知论文

会员服务 ·

0

多模 · 模态 · 一致 · 泛化 · 多模态 ·

Towards Generalized Multi-Image Editing for Unified Multimodal Models

翻译：迈向统一多模态模型的通用多图像编辑

Pengcheng Xu,Peng Tang,Donghao Luo,Xiaobin Hu,Weichu Cui,Qingdong He,Zhennan Chen,Jiangning Zhang,Charles Ling,Boyu Wang

from arxiv, Project page: https://github.com/Pengchengpcx/MIE-UMM

Unified Multimodal Models (UMMs) integrate multimodal understanding and generation, yet they are limited to maintaining visual consistency and disambiguating visual cues when referencing details across multiple input images. In this work, we propose a scalable multi-image editing framework for UMMs that explicitly distinguishes image identities and generalizes to variable input counts. Algorithmically, we introduce two innovations: 1) The learnable latent separators explicitly differentiate each reference image in the latent space, enabling accurate and disentangled conditioning. 2) The sinusoidal index encoding assigns visual tokens from the same image a continuous sinusoidal index embedding, which provides explicit image identity while allowing generalization and extrapolation on a variable number of inputs. To facilitate training and evaluation, we establish a high-fidelity benchmark using an inverse dataset construction methodology to guarantee artifact-free, achievable outputs. Experiments show clear improvements in semantic consistency, visual fidelity, and cross-image integration over prior baselines on diverse multi-image editing tasks, validating our advantages on consistency and generalization ability.

翻译：统一多模态模型（UMMs）整合了多模态理解与生成能力，但在参考多张输入图像的细节时，其在保持视觉一致性和消除视觉线索歧义方面仍存在局限。本研究提出一种可扩展的多图像编辑框架，该框架能够显式区分图像身份并泛化至可变数量的输入。在算法层面，我们引入两项创新：1）可学习的潜在分离器在潜在空间中显式区分每张参考图像，实现精确且解耦的条件控制；2）正弦索引编码为来自同一图像的视觉标记分配连续的正弦索引嵌入，在提供显式图像身份的同时，允许对可变数量输入进行泛化和外推。为促进训练与评估，我们采用逆向数据集构建方法建立了高保真度基准，以确保生成无伪影且可实现的输出。实验表明，在多样化的多图像编辑任务中，本方法在语义一致性、视觉保真度和跨图像整合方面均较现有基线有明显提升，验证了我们在一致性和泛化能力上的优势。

0

相关内容

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

45+阅读 · 2025年6月14日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作

专知会员服务

20+阅读 · 2024年10月1日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

多变量形态学分水岭理论及其在多通道图像处理中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月4日

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

Arxiv

0+阅读 · 2月2日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

UEval: A Benchmark for Unified Multimodal Generation

Arxiv

0+阅读 · 1月29日

Unified Personalized Understanding, Generating and Editing

Arxiv

0+阅读 · 1月11日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月8日

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

Arxiv

0+阅读 · 1月8日

UniVideo: Unified Understanding, Generation, and Editing for Videos

Arxiv

0+阅读 · 1月7日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月6日

AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

相关VIP内容

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

45+阅读 · 2025年6月14日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作

【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作

专知会员服务

20+阅读 · 2024年10月1日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

相关论文

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月4日

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

Arxiv

0+阅读 · 2月2日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

UEval: A Benchmark for Unified Multimodal Generation

Arxiv

0+阅读 · 1月29日

Unified Personalized Understanding, Generating and Editing

Arxiv

0+阅读 · 1月11日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月8日

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

Arxiv

0+阅读 · 1月8日

UniVideo: Unified Understanding, Generation, and Editing for Videos

Arxiv

0+阅读 · 1月7日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月6日

AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models

Arxiv

0+阅读 · 1月2日

相关基金

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

多变量形态学分水岭理论及其在多通道图像处理中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员