多模态扩散Transformer(MM-DiT)已成为文本到图像生成的主流架构,但“概念遗漏”——指定对象完全缺失(对象遗漏)或属性被忽略(属性忽视)——仍是困扰用户的顽疾。例如,提示词“一只红色的猫与一条蓝色的狗”可能只生成猫而忽略狗,或颜色绑定错误。现有修复方案往往需要额外训练或高昂推理成本,且对文本嵌入在概念生成中的内部机理理解不足。
来自首尔大学与韩国大学的研究团队,在2026年国际机器学习大会(ICML 2026)发表的工作中,首次从MM-DiT内部文本嵌入视角剖析概念遗漏的本质。他们通过线性探测发现,文本token嵌入中蕴含可区分的“遗漏信号”——当概念缺失时,该信号会被激活。基于这一发现,他们提出免训练的干预方法Omission Signal Intervention(OSI),通过放大遗漏信号主动“催化”缺失概念的生成。实验表明,OSI在FLUX.1-Dev和SD3.5-Medium上均能显著缓解极端场景下的概念遗漏。 这篇论文的价值在于揭示了扩散模型中文本嵌入作为“概念生成内隐指示器”的潜力,并提供了一种轻量、高效、无需修改模型的纠正手段。对于从事多模态生成、文本-图像对齐以及扩散模型解释性研究的读者而言,本文的方法论和实验设计均具有重要参考意义。
英文题目 Diagnosing and Correcting Concept Omission in Multimodal Diffusion Transformers 作者 Kanghyun Baek, Jaihyun Lew, Chaehun Shin, Jungbeom Lee, Sungroh Yoon arXiv ID 2605.14270v1 类别 cs.CV Comments/接收信息 Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), PMLR 306 原文链接 https://arxiv.org/abs/2605.14270v1
多模态扩散Transformer(MM-DiTs)在文本到图像生成任务中取得了显著进展,但常出现概念遗漏问题——指定对象或属性未能出现在生成图像中。本文首先通过线性探测文本token,证明文本嵌入能够区分代表目标概念缺失的“遗漏信号”。基于此洞察,我们提出Omission Signal Intervention(OSI),该方法通过主动放大遗漏信号来催化缺失概念的生成。在FLUX.1-Dev和SD3.5-Medium上的综合实验表明,即使在包含多个对象或复杂属性的极端场景下,OSI也显著缓解了概念遗漏。
文本到图像生成模型在过去几年取得了飞速发展,尤其是采用多模态扩散Transformer(MM-DiT)的架构(如FLUX、SD3.5)通过语音与视觉模态的联合交互显著提升了提示-图像对齐。然而,概念遗漏仍是这些模型常见的失败模式:一方面是指定对象完全缺失(对象遗漏),另一方面是指定对象的视觉属性被忽略(属性忽视)。例如,提示词“一只戴着帽子的狗”可能生成不戴帽子的狗(属性忽视),或干脆不生成狗(对象遗漏)。 现有工作尝试解决概念遗漏问题:Xie等(2023)、Li等(2023b)和Jiang等(2024)提出了多种修复方法,但这些方法通常需要额外训练或引入显著的推理计算开销。同时,Chefer等(2023)、Rassin等(2023)、Agarwal等(2023)主要聚焦于视觉嵌入的分析,而文本嵌入在概念生成中的作用尚待探索。Chen等(2024)虽研究了文本嵌入对对象生成的影响,但其分析局限于CLIP文本编码器的输出,并未考察这些嵌入在扩散模型内部如何被解释和利用。 本文旨在回答一个核心问题: 在MM-DiT的生成过程中,文本token嵌入是否包含关于概念是否存在的信息?如果存在,能否利用该信息来主动纠正遗漏?为此,作者首先通过线性探测验证了文本嵌入中确实存在可区分的“遗漏信号”。受此启发,他们提出了Omission Signal Intervention(OSI),该方法无需额外训练,仅通过在生成过程中向文本表示添加遗漏方向,即可增强模型对缺失概念的注意,从而有效缓解对象遗漏和属性忽视。
OSI方法的完整流程可分为三个关键步骤:信号检测、方向提取与主动干预。整个方法基于一个核心洞察——在MM-DiT的多头注意力机制中,部分注意力头的文本token嵌入能够以高准确率区分概念的存在与否。以下逐模块阐述。
为了验证文本嵌入是否包含关于概念是否缺失的信息,作者设计了一套线性探测流程:
基于线性探测的结果,作者进一步提取可量化的“遗漏方向”(omission direction):
在推理阶段,OSI通过以下方式主动纠正概念遗漏:
[ e' = e + \alpha \cdot d_{\text{omit}} ] 其中,( \alpha ) 是控制干预强度的超参数,( d_{\text{omit}} ) 是之前提取的该token的遗漏信号方向。
关键要点:OSI不修改模型参数,不改变注意力机制的结构,仅通过在嵌入空间施加方向性干预来影响生成过程。这种方法的泛化性依赖于线性探测所找到的遗漏方向在不同提示和场景下的稳定性——作者在实验部分对此进行了验证。
作者在两类典型概念遗漏场景上进行评估:
评估指标原文未明确说明每个具体数值,根据上下文推测使用了准确率(如对象出现的比例或属性绑定的正确率)。由于原文未给出具体指标定义,这里不作虚构,仅概括为模型在数据集上的标准评估协议。
在两种主流MM-DiT模型上验证:
对比策略包括基线模型直接生成的结果,以及可能存在的其他免训练干预方法(原文未明确列举具体基线名称,但提到OSI相较于现有需要额外训练的方法具有优势)。
OSI在对象遗漏和属性忽视场景下均实现了显著的性能提升:
具体数值原文未给出表格或数字,故此处不列举。但摘要和引言均明确指出“显著缓解”,且OSI在两个模型上均一致有效。
原文未明确说明。论文的Method部分主要围绕线性探测和OSI的设计,未报告例如不同强度 α 的影响、不同注意力头选择策略的对比等消融实验。这可能是因为线性探测本身已经包含了注意力头的选择信息(只在高准确率头上应用干预?),但论文未详细讨论。因此,消融分析部分在此省略。
原文未明确说明局限性部分。但我们根据方法可以推测可能的局限:例如,遗漏方向的提取依赖于对标注数据集的线性探测,而该标注数据可能不完全覆盖所有概念类别;此外,超参数 α 的选取可能需要针对不同模型或任务微调,文中未讨论其鲁棒性。这些内容在原文中未提及,因此不作展开。
本文的工作表明,文本嵌入的内部状态不仅反映了语义,还隐含了模型对“是否要生成该概念”的决策信息。这一发现为免训练的概念纠正提供了新思路——无需重训练或控制注意力图,仅需在嵌入空间施加方向性干预。未来可能的研究方向包括:探索更鲁棒的遗漏方向提取方法(如从更多样化的提示中收集数据);将OSI扩展到其他多模态生成任务(如文本到视频);将OSI与现有基于注意力图的方法结合,实现更精细的控制。