Shifting the Breaking Point of Flow Matching for Multi-Instance Editing - 专知论文

会员服务 ·

0

流匹配 · 注意力机制 · 划分 · 操作 · 速度场估计 ·

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

翻译：基于流匹配的多实例编辑突破点转移

Carmine Zaccagnino,Fabio Quattrini,Enis Simsar,Marta Tintoré Gazulla,Rita Cucchiara,Alessio Tonioni,Silvia Cascianelli

Flow matching models have recently emerged as an efficient alternative to diffusion, especially for text-guided image generation and editing, offering faster inference through continuous-time dynamics. However, existing flow-based editors predominantly support global or single-instruction edits and struggle with multi-instance scenarios, where multiple parts of a reference input must be edited independently without semantic interference. We identify this limitation as a consequence of globally conditioned velocity fields and joint attention mechanisms, which entangle concurrent edits. To address this issue, we introduce Instance-Disentangled Attention, a mechanism that partitions joint attention operations, enforcing binding between instance-specific textual instructions and spatial regions during velocity field estimation. We evaluate our approach on both natural image editing and a newly introduced benchmark of text-dense infographics with region-level editing instructions. Experimental results demonstrate that our approach promotes edit disentanglement and locality while preserving global output coherence, enabling single-pass, instance-level editing.

翻译：流匹配模型近年来作为扩散模型的高效替代方案出现，尤其在文本引导的图像生成与编辑领域，通过连续时间动力学实现了更快的推理速度。然而，现有的基于流的编辑器主要支持全局或单指令编辑，难以应对多实例场景，即需要独立编辑参考输入的多个部分而不产生语义干扰。我们将此局限性归因于全局条件化的速度场和联合注意力机制，这些机制使得并发编辑相互纠缠。为解决这一问题，我们提出了实例解缠注意力机制，该机制通过划分联合注意力操作，在速度场估计过程中强制绑定实例特定的文本指令与空间区域。我们在自然图像编辑以及新引入的文本密集型信息图区域级编辑指令基准上评估了我们的方法。实验结果表明，我们的方法在保持全局输出一致性的同时，促进了编辑的解缠与局部性，实现了单次传递的实例级编辑。

0

相关内容

流匹配

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

16+阅读 · 2025年4月30日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【博士论文】迈向可扩展、灵活的点云场景流

【博士论文】迈向可扩展、灵活的点云场景流

专知会员服务

14+阅读 · 2025年3月21日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

Active Flow Matching

Arxiv

0+阅读 · 3月1日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Arxiv

0+阅读 · 2月12日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching

Arxiv

0+阅读 · 2月5日

Edit-Based Flow Matching for Temporal Point Processes

Arxiv

0+阅读 · 2月4日

Flow Matching for Tabular Data Synthesis

Arxiv

0+阅读 · 2月4日

SplineFlow: Flow Matching for Dynamical Systems with B-Spline Interpolants

Arxiv

0+阅读 · 1月30日

Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

注意力机制

速度场估计

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

4+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

16+阅读 · 2025年4月30日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【博士论文】迈向可扩展、灵活的点云场景流

【博士论文】迈向可扩展、灵活的点云场景流

专知会员服务

14+阅读 · 2025年3月21日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Active Flow Matching

Arxiv

0+阅读 · 3月1日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Arxiv

0+阅读 · 2月12日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching

Arxiv

0+阅读 · 2月5日

Edit-Based Flow Matching for Temporal Point Processes

Arxiv

0+阅读 · 2月4日

Flow Matching for Tabular Data Synthesis

Arxiv

0+阅读 · 2月4日

SplineFlow: Flow Matching for Dynamical Systems with B-Spline Interpolants

Arxiv

0+阅读 · 1月30日

Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models

Arxiv

0+阅读 · 1月30日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员