Log-likelihood evaluation enables important capabilities in generative models, including model comparison, certain fine-tuning objectives, and many downstream applications. Yet paradoxically, some of today's best generative models -- diffusion and flow-based models -- still require hundreds to thousands of neural function evaluations (NFEs) to compute a single likelihood. While recent distillation methods have successfully accelerated sampling to just a few steps, they achieve this at the cost of likelihood tractability: existing approaches either abandon likelihood computation entirely or still require expensive integration over full trajectories. We present fast flow joint distillation (F2D2), a framework that simultaneously reduces the number of NFEs required for both sampling and likelihood evaluation by two orders of magnitude. Our key insight is that in continuous normalizing flows, the coupled ODEs for sampling and likelihood are computed from a shared underlying velocity field, allowing us to jointly distill both the sampling trajectory and cumulative divergence using a single model. F2D2 is modular, compatible with existing flow-based few-step sampling models, and requires only an additional divergence prediction head. Experiments demonstrate F2D2's capability of achieving accurate log-likelihood with few-step evaluations while maintaining high sample quality, solving a long-standing computational bottleneck in flow-based generative models. As an application of our approach, we propose a lightweight self-guidance method that enables a 2-step MeanFlow to outperform a 1024 step flow matching model with only a single additional backward NFE.


翻译:对数似然评估为生成模型提供了关键能力,包括模型比较、特定微调目标及众多下游应用。然而矛盾的是,当前部分最优生成模型——扩散模型与基于流的模型——仍需要数百至数千次神经函数评估(NFE)来计算单次似然。虽然近期蒸馏方法已成功将采样加速至仅需数步,但这以牺牲似然可计算性为代价:现有方法要么完全放弃似然计算,要么仍需对完整轨迹进行昂贵的积分计算。本文提出快速流联合蒸馏(F2D2)框架,通过两个数量级同时降低采样与似然评估所需的NFE次数。我们的核心洞见在于:在连续归一化流中,采样与似然计算的耦合常微分方程源自共享的底层速度场,这使得我们能够通过单一模型联合蒸馏采样轨迹与累积散度。F2D2具备模块化特性,兼容现有基于流的少步采样模型,且仅需增加散度预测头。实验表明F2D2能以少步评估实现精确对数似然计算,同时保持高质量样本生成,解决了基于流生成模型中长期存在的计算瓶颈。作为该方法的应用,我们提出一种轻量级自引导方法,使2步MeanFlow仅通过单次额外反向NFE即可超越1024步流匹配模型的性能。

0
下载
关闭预览

相关内容

预训练扩散模型蒸馏综述
专知会员服务
25+阅读 · 2025年2月17日
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
神经模型中组合求解器和离散分布的集成,77页ppt
专知会员服务
23+阅读 · 2022年12月30日
【华盛顿大学博士论文】因果模型的似然分析,190页pdf
专知会员服务
35+阅读 · 2022年11月14日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月22日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员