Diffusion models have achieved remarkable success in generative modeling. Despite more stable training, the loss of diffusion models is not indicative of absolute data-fitting quality, since its optimal value is typically not zero but unknown, leading to confusion between large optimal loss and insufficient model capacity. In this work, we advocate the need to estimate the optimal loss value for diagnosing and improving diffusion models. We first derive the optimal loss in closed form under a unified formulation of diffusion models, and develop effective estimators for it, including a stochastic variant scalable to large datasets with proper control of variance and bias. With this tool, we unlock the inherent metric for diagnosing the training quality of mainstream diffusion model variants, and develop a more performant training schedule based on the optimal loss. Moreover, using models with 120M to 1.5B parameters, we find that the power law is better demonstrated after subtracting the optimal loss from the actual training loss, suggesting a more principled setting for investigating the scaling law for diffusion models.


翻译:扩散模型在生成式建模中取得了显著成功。尽管训练过程更为稳定,但扩散模型的损失值并不能直接反映数据拟合质量,因为其最优值通常非零且未知,这导致将较大的最优损失误判为模型能力不足。本文提出,通过估计最优损失值来诊断和改进扩散模型十分必要。我们首先在扩散模型的统一框架下推导出最优损失的闭式解,并开发了有效的估计器,包括一种可扩展至大规模数据集、并能合理控制方差与偏差的随机变体。借助这一工具,我们揭示了主流扩散模型变体训练质量的内在度量,并基于最优损失开发出更高效的训练策略。此外,通过使用参数规模从1.2亿到15亿的模型,我们发现从实际训练损失中减去最优损失后,幂律关系得以更清晰地体现,这为研究扩散模型的扩展定律提供了更严谨的理论基础。

0
下载
关闭预览

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员