We propose Terminal Velocity Matching (TVM), a generalization of flow matching that enables high-fidelity one- and few-step generative modeling. TVM models the transition between any two diffusion timesteps and regularizes its behavior at its terminal time rather than at the initial time. We prove that TVM provides an upper bound on the $2$-Wasserstein distance between data and model distributions when the model is Lipschitz continuous. However, since Diffusion Transformers lack this property, we introduce minimal architectural changes that achieve stable, single-stage training. To make TVM efficient in practice, we develop a fused attention kernel that supports backward passes on Jacobian-Vector Products, which scale well with transformer architectures. On ImageNet-256x256, TVM achieves 3.29 FID with a single function evaluation (NFE) and 1.99 FID with 4 NFEs. It similarly achieves 4.32 1-NFE FID and 2.94 4-NFE FID on ImageNet-512x512, representing state-of-the-art performance for one/few-step models from scratch.


翻译:我们提出终端速度匹配(TVM),这是流匹配的一种推广,能够实现高保真度的单步和少步生成建模。TVM模拟任意两个扩散时间步之间的转移,并在其终端时间而非初始时间对其行为进行正则化。我们证明,当模型满足Lipschitz连续性时,TVM为数据分布与模型分布之间的$2$-Wasserstein距离提供了一个上界。然而,由于扩散变换器(Diffusion Transformers)缺乏此性质,我们引入了最小的架构改动以实现稳定的单阶段训练。为使TVM在实践中高效,我们开发了一种融合注意力核,该核支持在雅可比-向量积上进行反向传播,并能很好地适应变换器架构的规模。在ImageNet-256x256上,TVM在单次函数评估(NFE)下实现了3.29的FID,在4次NFE下实现了1.99的FID。在ImageNet-512x512上,它同样实现了4.32的单NFE FID和2.94的4-NFE FID,代表了从零开始训练的单步/少步模型的最先进性能。

0
下载
关闭预览

相关内容

深度学习图像匹配:综述与展望
专知会员服务
18+阅读 · 2025年6月6日
打造 LLMOps 时代 Prompt 数据驱动引擎
专知会员服务
34+阅读 · 2024年8月23日
高级地图匹配算法:研究现状和趋势
专知会员服务
18+阅读 · 2021年10月28日
专知会员服务
20+阅读 · 2021年8月5日
专知会员服务
12+阅读 · 2021年7月4日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
一种轻量级在线多目标车辆跟踪方法
极市平台
15+阅读 · 2018年8月18日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 1月23日
VIP会员
相关资讯
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
一种轻量级在线多目标车辆跟踪方法
极市平台
15+阅读 · 2018年8月18日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员