Distilling video generation models to extremely low inference budgets (e.g., 2--4 NFEs) is crucial for real-time deployment, yet remains challenging. Trajectory-style consistency distillation often becomes conservative under complex video dynamics, yielding an over-smoothed appearance and weak motion. Distribution matching distillation (DMD) can recover sharp, mode-seeking samples, but its local training signals do not explicitly regularize how denoising updates compose across timesteps, making composed rollouts prone to drift. To overcome this challenge, we propose Self-Consistent Distribution Matching Distillation (SC-DMD), which explicitly regularizes the endpoint-consistent composition of consecutive denoising updates. For real-time autoregressive video generation, we further treat the KV cache as a quality parameterized condition and propose Cache-Distribution-Aware training. This training scheme applies SC-DMD over multi-step rollouts and introduces a cache-conditioned feature alignment objective that steers low-quality outputs toward high-quality references. Across extensive experiments on both non-autoregressive backbones (e.g., Wan~2.1) and autoregressive real-time paradigms (e.g., Self Forcing), our method, dubbed \textbf{Salt}, consistently improves low-NFE video generation quality while remaining compatible with diverse KV-cache memory mechanisms. Source code will be released at \href{https://github.com/XingtongGe/Salt}{https://github.com/XingtongGe/Salt}.


翻译:将视频生成模型蒸馏至极低推理预算(例如2–4次NFE)对于实时部署至关重要,但仍面临挑战。轨迹式一致性蒸馏在复杂视频动态下往往趋于保守,导致生成结果过度平滑且运动表现力不足。分布匹配蒸馏(DMD)虽能恢复锐利且贴合模式的样本,但其局部训练信号未明确约束去噪更新在时间步之间的组合方式,致使组合式轨迹容易产生漂移。为解决这一问题,我们提出自洽分布匹配蒸馏(SC-DMD),该方法显式约束连续去噪更新在端点一致性上的组合。针对实时自回归视频生成,我们进一步将KV缓存视为参数化的质量条件,并提出缓存分布感知训练策略。该训练方案在多步轨迹上应用SC-DMD,并引入缓存条件化的特征对齐目标,引导低质量输出向高质量参考对齐。在非自回归骨干网络(如Wan~2.1)与自回归实时范式(如Self Forcing)的广泛实验中,我们的方法(命名为**Salt**)持续提升了低NFE视频生成质量,同时保持了与多种KV缓存内存机制的兼容性。源代码将于\href{https://github.com/XingtongGe/Salt}{https://github.com/XingtongGe/Salt}发布。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
【ICML2025】SADA:基于稳定性引导的自适应扩散加速方法
专知会员服务
7+阅读 · 2025年7月30日
【ICML2025】SADA:稳定性引导的自适应扩散加速
专知会员服务
12+阅读 · 2025年7月24日
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
18+阅读 · 2021年10月30日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月3日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员