[ICML 2026] 诊断与纠正多模态扩散Transformer中的概念遗漏

导读

多模态扩散Transformer（MM-DiT）已成为文本到图像生成的主流架构，但“概念遗漏”——指定对象完全缺失（对象遗漏）或属性被忽略（属性忽视）——仍是困扰用户的顽疾。例如，提示词“一只红色的猫与一条蓝色的狗”可能只生成猫而忽略狗，或颜色绑定错误。现有修复方案往往需要额外训练或高昂推理成本，且对文本嵌入在概念生成中的内部机理理解不足。

来自首尔大学与韩国大学的研究团队，在2026年国际机器学习大会（ICML 2026）发表的工作中，首次从MM-DiT内部文本嵌入视角剖析概念遗漏的本质。他们通过线性探测发现，文本token嵌入中蕴含可区分的“遗漏信号”——当概念缺失时，该信号会被激活。基于这一发现，他们提出免训练的干预方法Omission Signal Intervention（OSI），通过放大遗漏信号主动“催化”缺失概念的生成。实验表明，OSI在FLUX.1-Dev和SD3.5-Medium上均能显著缓解极端场景下的概念遗漏。这篇论文的价值在于揭示了扩散模型中文本嵌入作为“概念生成内隐指示器”的潜力，并提供了一种轻量、高效、无需修改模型的纠正手段。对于从事多模态生成、文本-图像对齐以及扩散模型解释性研究的读者而言，本文的方法论和实验设计均具有重要参考意义。

论文基本信息

英文题目 Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers 作者 Kanghyun Baek, Jaihyun Lew, Chaehun Shin, Jungbeom Lee, Sungroh Yoon arXiv ID 2605.14270v1 类别 cs.CV Comments/接收信息 Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), PMLR 306 原文链接 https://arxiv.org/abs/2605.14270v1

摘要

多模态扩散Transformer（MM-DiTs）在文本到图像生成任务中取得了显著进展，但常出现概念遗漏问题——指定对象或属性未能出现在生成图像中。本文首先通过线性探测文本token，证明文本嵌入能够区分代表目标概念缺失的“遗漏信号”。基于此洞察，我们提出Omission Signal Intervention（OSI），该方法通过主动放大遗漏信号来催化缺失概念的生成。在FLUX.1-Dev和SD3.5-Medium上的综合实验表明，即使在包含多个对象或复杂属性的极端场景下，OSI也显著缓解了概念遗漏。

引言：论文要解决什么问题

文本到图像生成模型在过去几年取得了飞速发展，尤其是采用多模态扩散Transformer（MM-DiT）的架构（如FLUX、SD3.5）通过语音与视觉模态的联合交互显著提升了提示-图像对齐。然而，概念遗漏仍是这些模型常见的失败模式：一方面是指定对象完全缺失（对象遗漏），另一方面是指定对象的视觉属性被忽略（属性忽视）。例如，提示词“一只戴着帽子的狗”可能生成不戴帽子的狗（属性忽视），或干脆不生成狗（对象遗漏）。现有工作尝试解决概念遗漏问题：Xie等（2023）、Li等（2023b）和Jiang等（2024）提出了多种修复方法，但这些方法通常需要额外训练或引入显著的推理计算开销。同时，Chefer等（2023）、Rassin等（2023）、Agarwal等（2023）主要聚焦于视觉嵌入的分析，而文本嵌入在概念生成中的作用尚待探索。Chen等（2024）虽研究了文本嵌入对对象生成的影响，但其分析局限于CLIP文本编码器的输出，并未考察这些嵌入在扩散模型内部如何被解释和利用。 本文旨在回答一个核心问题： 在MM-DiT的生成过程中，文本token嵌入是否包含关于概念是否存在的信息？如果存在，能否利用该信息来主动纠正遗漏？为此，作者首先通过线性探测验证了文本嵌入中确实存在可区分的“遗漏信号”。受此启发，他们提出了Omission Signal Intervention（OSI），该方法无需额外训练，仅通过在生成过程中向文本表示添加遗漏方向，即可增强模型对缺失概念的注意，从而有效缓解对象遗漏和属性忽视。

方法：核心思路与技术路线

OSI方法的完整流程可分为三个关键步骤：信号检测、方向提取与主动干预。整个方法基于一个核心洞察——在MM-DiT的多头注意力机制中，部分注意力头的文本token嵌入能够以高准确率区分概念的存在与否。以下逐模块阐述。

1. 线性探测：检测文本嵌入中的遗漏信号

为了验证文本嵌入是否包含关于概念是否缺失的信息，作者设计了一套线性探测流程：

数据集构建 在模型生成过程中，收集每个时间步各文本token的嵌入表示（从MM-DiT的注意力层中提取）。同时，对生成的图像进行人工或自动评估，标注每个目标概念是否出现在最终图像中。由此获得一组配对数据：文本token嵌入（特征） + 概念是否存在（二分类标签）。
线性分类器训练 对每个注意力头独立训练一个线性分类器（逻辑回归），输入是当前注意力头中特定文本token的嵌入，输出是概念存在的预测概率。线性探测的优势在于可以检测嵌入中是否线性可分的区分性信息。
结果分析 实验发现，部分注意力头的线性探测准确率显著高于随机，表明这些头确实编码了与概念缺失相关的信号。特别地，如图3所示（原论文Figure 3），在概念尚未出现的时间步，预测概率保持较低；当概念开始在图像中出现时，预测概率随之升高。这说明线性探测不仅能够区分，还能跟踪概念生成的动态过程。

2. 提取遗漏信号方向

基于线性探测的结果，作者进一步提取可量化的“遗漏方向”（omission direction）：

权重向量作为方向 对于每个文本token，线性分类器的权重向量 ( w ) 可以解释为从嵌入空间到标签空间的投影方向。如果标签定义为“概念缺失=1，概念存在=0”，那么权重的正方向对应着“该概念缺失”的特征方向。换言之，沿着权重向量方向移动嵌入，会增大分类器预测为“缺失”的概率；反向移动则增大“存在”的概率。
构造数据集 为了获得稳健的遗漏方向，作者从大量生成过程中采集文本token嵌入及其对应的“缺失/存在”标签，训练线性分类器，并取其权重向量作为待使用的遗漏信号方向 ( d_{\text{omit}} )。

3. 主动干预：Omission Signal Intervention (OSI)

在推理阶段，OSI通过以下方式主动纠正概念遗漏：

干预时机 在MM-DiT的每个去噪时间步（每个attention layer中），当需要促进某个目标概念的生成时，对对应文本token的嵌入施加干预。
干预公式 设原始文本token嵌入为 ( e )，则干预后的嵌入 ( e' ) 为：

[ e' = e + \alpha \cdot d_{\text{omit}} ] 其中，( \alpha ) 是控制干预强度的超参数，( d_{\text{omit}} ) 是之前提取的该token的遗漏信号方向。

机制解释 通过放大遗漏信号，相当于向模型发送了一个更强的“当前概念缺失”的内部信号，迫使模型在视觉生成中更加注意该概念，从而“催化”缺失概念的涌现。整个干预过程无需任何额外训练，仅需在推理时进行简单向量加法，计算成本几乎可忽略。

关键要点：OSI不修改模型参数，不改变注意力机制的结构，仅通过在嵌入空间施加方向性干预来影响生成过程。这种方法的泛化性依赖于线性探测所找到的遗漏方向在不同提示和场景下的稳定性——作者在实验部分对此进行了验证。

实验：设置、指标与结果

数据集与评估场景

作者在两类典型概念遗漏场景上进行评估：

对象遗漏 使用两个数据集。
修改的GenEval数据集（Ghosh et al., 2023）：包含2至6个对象的提示词，原始GenEval主要评测单对象或简单组合；本文通过构造包含多个明确对象的提示来加剧遗漏风险。
T2I-CompBench的非空间子集（Huang et al., 2023）：专门评测复杂组合场景中的对象生成。
属性忽视 使用T2I-CompBench的属性绑定数据集，其中提示词包含对象及对其颜色、材质、大小等属性的指定，用于评测模型是否正确呈现属性-对象绑定关系。

评估指标

评估指标原文未明确说明每个具体数值，根据上下文推测使用了准确率（如对象出现的比例或属性绑定的正确率）。由于原文未给出具体指标定义，这里不作虚构，仅概括为模型在数据集上的标准评估协议。

主模型与基线

在两种主流MM-DiT模型上验证：

FLUX.1-Dev（Labs, 2024）：采用Flow Matching框架的先进模型。
SD3.5-Medium（Stability AI, 2024）：同样基于MM-DiT架构。

对比策略包括基线模型直接生成的结果，以及可能存在的其他免训练干预方法（原文未明确列举具体基线名称，但提到OSI相较于现有需要额外训练的方法具有优势）。

主要结果

OSI在对象遗漏和属性忽视场景下均实现了显著的性能提升：

在对象遗漏场景中，对于包含2-6个对象的提示词，OSI生成图像中遗漏对象的比例大幅降低。
在属性忽视场景中，OSI能够更准确地将指定属性（如颜色）绑定到正确对象上。
即使面对极端场景（如6个对象同时出现、或互斥属性绑定），OSI仍能有效缓解概念遗漏，而基线模型在这类复杂提示下几乎完全失败（见图1示例）。

具体数值原文未给出表格或数字，故此处不列举。但摘要和引言均明确指出“显著缓解”，且OSI在两个模型上均一致有效。

消融/分析实验

原文未明确说明。论文的Method部分主要围绕线性探测和OSI的设计，未报告例如不同强度 α 的影响、不同注意力头选择策略的对比等消融实验。这可能是因为线性探测本身已经包含了注意力头的选择信息（只在高准确率头上应用干预？），但论文未详细讨论。因此，消融分析部分在此省略。

结论：贡献、局限与启发

主要贡献

从文本嵌入视角揭示了概念遗漏的成因：通过线性探测，首次实证表明MM-DiT的文本token嵌入中包含可区分的遗漏信号，该信号能够指示目标概念是否缺失。
提出了Omission Signal Intervention (OSI)：一种轻量、免训练的推理时干预方法，通过放大遗漏方向来主动催化缺失概念的生成，无需修改模型权重或增加显著计算开销。
验证了OSI的有效性：在FLUX.1-Dev和SD3.5-Medium上，OSI在对象遗漏和属性忽视两类场景下均有效，尤其在极端复杂提示下仍能显著缓解遗漏。

局限性

原文未明确说明局限性部分。但我们根据方法可以推测可能的局限：例如，遗漏方向的提取依赖于对标注数据集的线性探测，而该标注数据可能不完全覆盖所有概念类别；此外，超参数 α 的选取可能需要针对不同模型或任务微调，文中未讨论其鲁棒性。这些内容在原文中未提及，因此不作展开。

启发与未来方向

本文的工作表明，文本嵌入的内部状态不仅反映了语义，还隐含了模型对“是否要生成该概念”的决策信息。这一发现为免训练的概念纠正提供了新思路——无需重训练或控制注意力图，仅需在嵌入空间施加方向性干预。未来可能的研究方向包括：探索更鲁棒的遗漏方向提取方法（如从更多样化的提示中收集数据）；将OSI扩展到其他多模态生成任务（如文本到视频）；将OSI与现有基于注意力图的方法结合，实现更精细的控制。

成为VIP会员查看完整内容