Diffusion models power leading generative AI, but when and how they memorize training data, especially on low-dimensional manifolds, remains unclear. We find memorization emerges gradually, not abruptly: as data become scarce, diffusion models experience a smooth collapse where their capacity to vary across independent directions diminishes. Measuring latent dimensionality via the learned score field, we reveal how generative behavior increasingly centers on a few examples while other variations "freeze out". We propose a geometric memorization theory, showing that salient features collapse first, then finer details, leading to near point-wise replication. This mirrors physical systems condensing into a few low-energy configurations. Our theoretical predictions align with both synthetic and real data, identifying geometric memorization as a distinct phase between generalization and exact copying.


翻译:扩散模型驱动着领先的生成式人工智能,但其在何时以及如何记忆训练数据,尤其是在低维流形上的记忆机制,仍不明确。我们发现记忆现象是逐渐而非突然出现的:随着数据变得稀缺,扩散模型经历一种平滑的坍缩过程,其沿独立方向变化的能力逐渐减弱。通过基于学习到的评分场测量潜在维度,我们揭示了生成行为如何日益集中于少数样本,而其他变化则逐渐“冻结”。我们提出了一种几何记忆理论,表明显著特征首先坍缩,随后是精细细节,最终导致近乎逐点的复制。这类似于物理系统凝聚成少数低能态构型的过程。我们的理论预测在合成数据与真实数据中均得到验证,从而将几何记忆识别为介于泛化与精确复制之间的一个独特阶段。

0
下载
关闭预览

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
生成式人工智能的扩散模型概述
专知会员服务
66+阅读 · 2024年12月8日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
如何构建行业知识图谱(以医疗行业为例)
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 39分钟前
软件定义多域战术网络:基础与未来方向(综述)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员