Dataset distillation compresses large datasets into compact synthetic sets with comparable performance in training models. Despite recent progress on diffusion-based distillation, this type of method typically depends on heuristic guidance or prototype assignment, which comes with time-consuming sampling and trajectory instability and thus hurts downstream generalization especially under strong control or low IPC. We propose \emph{Path-Guided Flow Matching (PGFM)}, the first flow matching-based framework for generative distillation, which enables fast deterministic synthesis by solving an ODE in a few steps. PGFM conducts flow matching in the latent space of a frozen VAE to learn class-conditional transport from Gaussian noise to data distribution. Particularly, we develop a continuous path-to-prototype guidance algorithm for ODE-consistent path control, which allows trajectories to reliably land on assigned prototypes while preserving diversity and efficiency. Extensive experiments across high-resolution benchmarks demonstrate that PGFM matches or surpasses prior diffusion-based distillation approaches with fewer steps of sampling while delivering competitive performance with remarkably improved efficiency, e.g., 7.6$\times$ more efficient than the diffusion-based counterparts with 78\% mode coverage.


翻译:数据集蒸馏将大型数据集压缩为紧凑的合成集,在训练模型时能获得可比的性能。尽管基于扩散的蒸馏方法近期取得了进展,但这类方法通常依赖于启发式引导或原型分配,这伴随着耗时的采样和轨迹不稳定性,从而损害了下游泛化能力,尤其在强控制或低IPC条件下。我们提出了**路径引导流匹配**,这是首个基于流匹配的生成式蒸馏框架,通过求解常微分方程在少数步骤内实现快速确定性合成。PGFM在冻结变分自编码器的潜在空间中进行流匹配,以学习从高斯噪声到数据分布的类别条件传输。特别地,我们开发了一种连续路径到原型引导算法,用于实现ODE一致的路径控制,使轨迹能够可靠地抵达指定的原型,同时保持多样性和效率。在高分辨率基准测试上的大量实验表明,PGFM以更少的采样步骤匹配或超越了先前的基于扩散的蒸馏方法,同时以显著提升的效率提供了具有竞争力的性能,例如,在达到78%模式覆盖率时,其效率比基于扩散的同类方法高出7.6倍。

0
下载
关闭预览

相关内容

【NeurIPS2023】基于频域的数据集蒸馏
专知会员服务
24+阅读 · 2023年11月16日
【AAAI2022】锚框排序知识蒸馏的目标检测
专知会员服务
27+阅读 · 2022年2月10日
【CVPR2021】用于目标检测的通用实例蒸馏
专知会员服务
24+阅读 · 2021年3月22日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
158+阅读 · 2020年6月14日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员