CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

导读

扩散模型已经成为图像、视频、音频和分子生成的重要基础，但“为什么这些方法有效”与“如何把几十甚至上千步采样压缩到一步或少数几步”，仍是理解和使用扩散模型时最容易混淆的两个问题。 CVPR 2026 教程 The Principles of Diffusion Models: Real-Time Continuous & Discrete Diffusion 正面回应了这两个问题。教程于 2026 年 6 月 3 日在美国丹佛 CVPR 会场举行，由 Sony AI、MBZUAI、OpenAI、Adobe 和斯坦福大学的研究者共同组织。课程覆盖连续扩散和离散扩散，并把重点放在实时与高效生成上。连续部分从三条历史路径重新解释扩散模型：变分视角从 VAE 走向 DDPM，能量与分数视角从能量模型走向 Score SDE，流视角则从归一化流走向 Flow Matching 与 Rectified Flow。三种语言最终描述的是同一类“连接数据与噪声分布的动态系统”，只是训练目标、参数化方式和数值求解视角不同。在此基础上，教程将问题推进到快速生成。传统扩散模型学习瞬时速度或分数场，采样时必须沿轨迹逐步积分；Consistency Model、Consistency Trajectory Model 与 MeanFlow 等 Flow Map 方法尝试直接学习时间区间上的映射，从而以一步或少数几步完成生成。离散部分则处理文本、token 和类别数据。课程从均匀状态离散扩散出发，通过 Diffusion Duality 解释连续高斯扩散与离散扩散之间的关系，并进一步介绍 Psi-Sampler 的推理时扩展，以及 Discrete Consistency Distillation 的少步生成。这不是一场只列论文的综述型报告。官网提供了连续扩散、Flow Map、均匀状态离散扩散、Psi 采样器和离散一致性蒸馏的实践材料。本文根据教程官网、官方讲义和代码笔记本，整理其核心理论、方法差异和可复现路径。图 1：CVPR 2026 教程“The Principles of Diffusion Models”官方讲义封面。教程聚焦连续与离散扩散模型的实时生成。来源：教程官方幻灯片。

教程基本信息

教程名称 The Principles of Diffusion Models
主题说明 Real-Time Continuous & Discrete Diffusion
会议 CVPR 2026
时间 2026 年 6 月 3 日上午 8:00
地点 Room 301/302，Denver, Colorado
形式理论讲解、训练方法、采样算法与现场代码演示
适合人群 熟悉神经网络与 PyTorch，并了解 VAE、能量模型、归一化流等经典生成模型概念的研究者与开发者
教程官网 https://sites.google.com/view/cvpr26-principles-of-diffusion/home

一、教程试图解决什么问题

从“会生成”走向“实时生成”

扩散模型通常把真实数据逐步扰动为简单噪声，再学习逆向过程，将噪声恢复为样本。训练可以并行完成，但生成需要反复调用神经网络。高质量模型常使用几十到数百次函数评估，这使延迟和计算成本成为部署瓶颈。本教程把生成速度视为核心问题，而不是训练完成后的工程优化。其思路可以概括为两条路线。第一条路线仍然使用扩散模型的速度场或分数场，但采用更好的 ODE 求解器和时间步设计，用更少的函数评估逼近同一条生成轨迹。第二条路线直接改变学习对象：模型不再只预测当前位置的瞬时方向，而是学习从任意噪声时刻直接跳到更干净时刻的 Flow Map。若这个映射足够准确，原本需要数十步积分的过程就可能压缩为一步。

连续与离散数据需要统一理解

图像像素和连续潜变量适合用高斯噪声扰动；文本 token、类别标签和离散结构则不能简单加入实数噪声。离散扩散通常定义一个类别转移过程，使 token 逐渐被随机状态或掩码替代。教程的重要观点是：连续扩散与离散扩散并非毫无关联。Diffusion Duality 表明，离散过程可以从连续高斯扩散的结构中导出。这种对应关系不只提供理论解释，还允许把连续空间中的快速生成和蒸馏思想迁移到离散空间。

二、连续扩散的三种起源

变分视角

从变分自编码器出发，可以把扩散模型看作拥有许多潜变量层的分层生成模型。正向过程逐步向数据添加噪声，逆向模型学习每一步的条件分布。DDPM 通过固定正向噪声过程，把复杂生成问题分解为一系列局部去噪任务。这一视角的优势是概率模型结构清晰，可以从似然下界推导训练目标。实际训练常转化为噪声、干净样本或速度预测的均方误差。不同预测目标看似不同，本质上可通过时间相关系数相互变换。

分数视角

能量模型通过未归一化密度描述数据，而分数函数是对数密度关于样本的梯度。若能够估计不同噪声尺度下的分数，就可以沿着概率增大的方向逐渐把噪声变成数据。 Score SDE 将这一过程写成连续时间随机微分方程。对应的逆向 SDE 和概率流 ODE 提供两种采样方式：前者保留随机性，后者以确定性动力系统产生相同边缘分布。扩散采样由此成为数值求解问题。

流视角

归一化流学习可逆变换，把简单分布映射到数据分布。Flow Matching 不要求显式构造复杂可逆网络，而是学习一个随时间变化的速度场，使样本沿 ODE 从噪声流向数据。官方代码使用线性插值： x_s = (1 - s) x_0 + s ε 其中 s=0 为真实数据，s=1 为高斯噪声，条件速度为 ε - x_0。网络学习给定中间状态与时间后的边缘速度。训练目标只是速度回归，但模型在采样时仍需要通过 ODE 求解器沿曲线逐步积分。图 2：扩散模型的三种起源。变分、分数和流三条路线分别从 VAE、能量模型与归一化流出发，最终形成统一的连续时间扩散描述。来源：教程官方幻灯片。

三种视角如何统一

三条路线强调的对象不同：变分视角关注概率分解和似然，分数视角关注密度梯度，流视角关注概率质量如何随速度场移动。但它们可以共享相同的噪声日程、参数化和训练数据。教程的价值并不在于宣布某一种解释“更正确”，而是帮助学习者根据问题切换工具。讨论训练目标时，变分推导很有用；设计随机采样器时，Score SDE 更自然；分析实时生成和数值积分时，Flow Matching 与 ODE 语言更直接。

三、从速度场到数值采样

欧拉法

训练完成后，生成从噪声 x_1 开始，沿学习到的速度场从 s=1 积分至 s=0。欧拉法在每个时间步查询一次网络，并沿当前斜率前进一步。它实现简单，每步只需要一次函数评估，但误差会沿弯曲轨迹累积。如果时间步太少，欧拉法可能偏离真实流线；如果增加时间步，质量提高但延迟上升。评估采样效率时，因此不能只比较“步数”，还应比较神经网络函数评估次数。

Heun 法

Heun 法先用欧拉步骤预测下一个位置，再在新位置计算斜率，最后取两次斜率的平均值进行修正。它每步大约需要两次网络评估，但拥有更高阶的局部精度。在相同时间步数下，Heun 通常优于欧拉；在相同函数评估预算下，结果取决于速度场曲率和时间步配置。官方笔记本提供了同一 Two Moons 数据集上的对比，并允许交互调整采样步数。图 3：官方代码演示中的连续扩散训练实现。模型使用条件流匹配学习速度场，随后通过数值 ODE 求解器完成采样。来源：教程官方幻灯片与代码笔记本。

为什么更好的求解器仍不够

数值求解器解决的是“如何更精确地沿轨迹行走”。但只要模型学习的是瞬时速度，就仍要重复查询网络。要真正进入一步或少步生成，需要学习跨越一段时间的整体映射，这正是 Flow Map 方法的出发点。

四、Flow Map：把整段轨迹压缩为一次跳跃

基本思想

设扩散 ODE 的速度场为 v(x,t)。传统扩散模型学习当前时刻的局部速度，采样器再通过积分计算从时间 s 到 t 的状态变化。Flow Map 模型直接逼近这个积分后的映射，输入当前状态、起始时间和目标时间，输出目标状态。直观地说，传统模型学习“下一小步往哪里走”，Flow Map 学习“从这里直接跳到那里”。训练更复杂，但推理可能只需一次或几次网络调用。图 4：扩散模型与 Flow Map 模型的高层比较。前者学习瞬时速度并在采样时积分；后者学习时间区间上的整体映射，以一步或少步完成生成。来源：教程官方幻灯片。

Consistency Model

Consistency Model 的目标是让同一生成轨迹上不同噪声时刻的状态都映射到相同的干净样本。训练时选择相邻噪声水平，使在线网络与目标网络的输出保持一致。它天然支持从任意噪声时刻直接预测 x_0，因而可以一步生成。但它主要学习“到终点”的映射，对任意中间时刻的控制能力有限。多步采样时通常需要重新注入噪声。

Consistency Trajectory Model

CTM 将一致性模型扩展为任意时刻到任意时刻的映射。模型输入起点 s 和目标时间 t，学习从 x_s 跳到 x_t。训练利用半群性质：从 s 直接到 t，应当与先从 s 到中间时刻 u、再从 u 到 t 一致。这种设计既支持一步生成，也保留中间状态控制。官方实践使用自诱导 ODE 产生中间状态，并加入扩散或 Flow Matching 辅助损失，避免接近相同时间点时监督信号过弱。图 5：Flow Map 学习从噪声时间 s 到目标时间 t 的跨区间映射，而不是只学习单点速度。来源：教程官方幻灯片。图 6：CTM 一步生成示例。幻灯片对比了使用 79 个采样步骤的教师扩散模型与单步 CTM 学生模型，展示采样延迟压缩的目标。来源：教程官方幻灯片。

MeanFlow

MeanFlow 不直接预测终点，也不显式学习完整轨迹积分，而是预测时间区间上的平均速度。若平均速度准确，就可以用“起点加时间长度乘平均速度”直接获得目标状态。官方笔记本强调，MeanFlow 训练需要局部 Flow Matching 信号作为锚点。若完全缺少瞬时速度监督，一步生成可能失败；若全部退化为 Flow Matching，又会失去少步生成优势。实践中需要在平均流恒等式和局部速度回归之间平衡。图 7：MeanFlow 在 ImageNet 256 上的生成示例。幻灯片同时提醒，高质量少步模型可能把推理成本转移到更昂贵的训练阶段。来源：教程官方幻灯片。

快速生成并不等于免费

Flow Map 将计算从推理阶段转移到训练阶段。模型需要更复杂的教师、自蒸馏、目标网络、轨迹求解或雅可比向量积。一步生成质量提高的同时，训练稳定性、模型容量和数据规模要求也可能上升。因此，评价实时生成不能只报告采样步数，还应同时考虑训练成本、函数评估次数、吞吐、延迟、条件控制、样本多样性和分布覆盖。

五、一致性中训练

传统流程常先训练完整扩散模型，再单独蒸馏为少步模型。Consistency Mid-Training 尝试在训练过程中加入一致性目标，使模型在形成高质量速度场的同时逐渐获得跨时间跳跃能力。这种方法希望避免“先付出完整扩散训练成本，再进行昂贵蒸馏”的两阶段流程。核心仍是保持局部动力学学习与全局映射学习之间的平衡：过早强调一致性，模型可能尚未学到正确轨迹；过度依赖局部 Flow Matching，又难以获得一步生成能力。

六、音视频生成与创作保护

Yuki Mitsufuji 负责的模块讨论 AI 内容创作与保护，覆盖扩散模型记忆、内容归因以及 MMAudio 等音视频生成系统。生成模型能力提升后，研究问题不再只是“能否生成逼真内容”。训练数据是否被模型记忆、生成结果如何归因、创作者权益如何保护，以及音频与视频是否保持语义和时间同步，都成为部署必须面对的问题。音视频生成尤其强调跨模态一致性。视觉事件、物体运动和声音需要在时间轴上对齐。教程将创作能力与安全保护放在同一模块，提示生成质量、来源透明度和使用边界应共同设计。

七、离散扩散基础

为什么不能直接给 token 加高斯噪声

文本和类别变量位于有限状态空间。token A 与 token B 之间没有天然的欧氏距离，加入小数噪声也不会产生合法 token。因此，离散扩散需要定义类别转移核，让原始状态逐渐变为均匀随机状态或特殊掩码。课程使用均匀状态离散扩散。正向过程中，每个位置以一定概率保留原 token，其余概率分配给词表中的随机状态。随着时间推进，信号系数下降，状态逐渐接近均匀分布。图 8：均匀状态离散扩散的正向过程。原始 token 以随时间变化的概率被保留或替换为均匀随机状态。来源：教程官方离散扩散笔记本。

训练去噪 Transformer

官方实践把 Two Moons 连续坐标量化为离散 token，并使用小型 Transformer 根据带噪 token 与时间条件预测干净状态。坐标轴嵌入用于区分不同维度，模型输出每个位置在词表上的概率分布。这个例子刻意使用简单二维数据，使学习者可以直接观察连续数据量化、离散扰动、反向预测和采样结果，而不必先承担大语言模型训练成本。图 9：Two Moons 连续数据及其离散 token 表示。教程通过量化二维坐标构造可视化的离散扩散实验。来源：教程官方离散扩散笔记本。

八、扩散对偶

Diffusion Duality 的核心是建立连续高斯扩散与离散扩散之间的数学对应。通过合适的编码和决策区域，连续空间中的高斯扰动可以诱导离散状态之间的转移过程。这项对应关系带来两层价值。理论上，它说明离散扩散不是孤立设计的一组转移矩阵，而可以继承连续扩散的结构。方法上，它允许研究者将连续空间的参数化、采样和蒸馏思想转化为离散版本。教程以这一框架连接均匀状态扩散、Psi-Sampler 和离散一致性蒸馏，使离散部分不只是模型介绍，而是形成从理论到快速推理的完整链条。

九、Psi-Sampler 与推理时扩展

离散采样中的计算预算

普通祖先采样器按照反向转移逐步更新 token。增加采样步数通常能降低离散化误差，但计算成本随之增加。更重要的是，离散生成中的错误位置并不具有相同难度：有些 token 很早就能确定，有些位置需要更多推理和修正。 Psi-Sampler 将额外推理预算分配给更需要处理的状态，使离散扩散具备推理时扩展能力。它关注的不只是统一增加步数，而是如何利用模型置信度和状态结构改进采样课程。

少步生成与推理时扩展是两个方向

少步生成追求在极低网络调用次数下获得可用样本；推理时扩展则允许为困难样本投入更多计算以提高质量。两者表面相反，实际可以由同一模型支持：默认使用快速路径，在需要时启用更强采样器或更多计算。教程将祖先采样与 Psi-Sampler 放在同一代码实践中，便于比较固定预算与自适应预算的差异。

十、离散一致性蒸馏

Discrete Consistency Distillation 把连续空间的一致性思想迁移到离散过程。训练目标是让预训练离散扩散模型在多个噪声时刻产生一致的去噪结果，从而压缩反向链。教程使用 Greedy-Tail Sampler 展示少步生成：模型优先确定高置信度部分，同时为不确定位置保留后续修正空间。相比一次性贪心解码，这种尾部处理机制保留了扩散式逐步完善的特点；相比完整祖先采样，它显著减少采样步骤。这部分体现了教程的总体主线：连续与离散扩散都在寻找局部动力学与跨时间映射之间的连接，并以蒸馏、Flow Map 或自适应采样减少实际计算。

十一、实践材料与复现路线

连续扩散实践

官方连续扩散笔记本以 Two Moons 为数据集，使用条件 Flow Matching 训练速度网络，并实现欧拉法与 Heun 法。建议先比较相同步数，再比较相同函数评估预算，观察高阶求解器在低步数区域的优势。第二个笔记本在同一数据和网络设置下实现 CM、CTM 与 MeanFlow。统一实验设置使差异集中在训练目标、时间条件和采样方式，而不是模型容量。

离散扩散实践

离散材料分为三个部分：均匀状态扩散基础、Psi-Sampler 推理时扩展，以及少步生成。学习者可以先完成 token 量化与去噪 Transformer，再实现祖先采样，随后加入 Psi-Sampler，最后进行离散一致性蒸馏。

十二、教程日程

8:00 教程开始
8:05–9:35 连续扩散：三种理论起源、Flow Map 快速生成、训练方法与现场演示
9:35–9:50 音视频生成与创作保护
9:50–10:10 休息
10:10–12:00 离散扩散：均匀状态扩散、图像生成演示、Psi-Sampler、扩散对偶、离散一致性蒸馏与少步生成演示

官网进一步列出了 8:35、9:15、10:40、11:10 和 11:30 等模块节点，课程在理论讲解和代码演示之间交替进行。

十三、讲者与组织者

Chieh-Hsin Lai

Sony AI Staff Research Scientist，国立阳明交通大学访问助理教授，明尼苏达大学数学博士。研究聚焦深度生成模型与 AI for Science，牵头编写《The Principles of Diffusion Models》。本教程中负责连续扩散与 Flow Map 部分。

Subham Sekhar Sahoo

MBZUAI Institute of Foundation Models 高级研究科学家，康奈尔大学博士，研究方向为扩散语言模型。他提出的 MDLM 框架推动了离散扩散模型发展。本教程中负责离散扩散、Diffusion Duality、Psi-Sampler 与少步生成。

Yuki Mitsufuji

Sony Group Distinguished Engineer、Sony AI 研究负责人、纽约大学访问研究教授，研究创意 AI、视觉与音频生成模型。本教程中负责音视频生成和创作保护。教程组织者还包括 OpenAI 的 Yang Song、Adobe 的 Dongjun Kim，以及斯坦福大学的 Stefano Ermon。其研究覆盖分数生成模型、Consistency Trajectory Model、扩散理论和高效生成。

十四、关键总结

第一，DDPM、Score SDE 与 Flow Matching 并不是互不相干的模型家族，而是从变分、分数和流三个角度描述扩散生成。第二，传统扩散模型学习瞬时方向，因此需要数值积分；Flow Map 学习跨时间映射，因此能够一步或少步生成。第三，CM、CTM 和 MeanFlow 的主要差异在于映射对象和训练约束。CM 面向噪声状态到干净终点，CTM 支持任意时间跳跃，MeanFlow 学习区间平均速度。第四，采样步数不是唯一效率指标。函数评估次数、训练成本、控制能力、随机性和覆盖度都需要共同考虑。第五，离散扩散可以通过 Diffusion Duality 与连续扩散建立对应，从而迁移一致性蒸馏和高效采样思想。第六，少步生成与推理时扩展并不冲突。一个系统可以提供快速默认路径，也可以为困难样本动态增加计算。教程最终给出的不是一份固定算法配方，而是一套理解扩散模型的坐标系：先看模型学习的是局部速度、分数还是跨区间映射，再看采样器如何利用这个对象组织计算。