Diffusion models are powerful generative models that produce high-quality samples from complex data. While their infinite-data behavior is well understood, their generalization with finite data remains less clear. Classical learning theory predicts that generalization occurs at a sample complexity that is exponential in the dimension, far exceeding practical needs. We address this gap by analyzing diffusion models through the lens of data covariance spectra, which often follow power-law decays, reflecting the hierarchical structure of real data. To understand whether such a hierarchical structure can benefit learning in diffusion models, we develop a theoretical framework based on linear neural networks, congruent with a Gaussian hypothesis on the data. We quantify how the hierarchical organization of variance in the data and regularization impacts generalization. We find two regimes: When $N <d$, not all directions of variation are present in the training data, which results in a large gap between training and test loss. In this regime, we demonstrate how a strongly hierarchical data structure, as well as regularization and early stopping help to prevent overfitting. For $N > d$, we find that the sampling distributions of linear diffusion models approach their optimum (measured by the Kullback-Leibler divergence) linearly with $d/N$, independent of the specifics of the data distribution. Our work clarifies how sample complexity governs generalization in a simple model of diffusion-based generative models.


翻译:扩散模型是强大的生成模型,能够从复杂数据中生成高质量样本。尽管其在无限数据下的行为已得到充分理解,但在有限数据下的泛化特性仍不甚明晰。经典学习理论预测泛化发生在样本复杂度随维度指数增长的情况下,这远超实际需求。我们通过数据协方差谱的视角分析扩散模型来弥合这一差距——数据协方差谱常遵循幂律衰减,反映了真实数据的层次结构。为探究这种层次结构是否能促进扩散模型的学习,我们基于线性神经网络建立了理论框架,该框架与数据的高斯假设相一致。我们量化了数据中方差的分层组织及正则化如何影响泛化。研究发现存在两种机制:当 $N < d$ 时,训练数据未包含所有变异方向,导致训练损失与测试损失间存在较大差距。在此机制下,我们证明了强层次化数据结构、正则化及早期停止如何有助于防止过拟合。当 $N > d$ 时,我们发现线性扩散模型的采样分布以 $d/N$ 的线性速率逼近其最优解(以Kullback-Leibler散度度量),且该速率与数据分布的具体细节无关。本研究阐明了在基于扩散的生成模型这一简单模型中,样本复杂度如何支配泛化行为。

0
下载
关闭预览

相关内容

扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
Attention!注意力机制模型最新综述(附下载)
THU数据派
29+阅读 · 2019年4月13日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员