Diffusion models have become a leading paradigm in generative AI, with score estimation via denoising score matching as a central component. While recent theory provides strong statistical guarantees, it typically relies on algorithm-agnostic assumptions and treats empirical risk minimization as if it were solved exactly. In practice, however, score functions are parameterized by highly nonconvex neural networks and trained by gradient descent (GD), and it remains unclear whether such practical procedures admit rigorous guarantees. We take a first step toward this question by developing a mathematical framework for score estimation with GD-trained neural networks. Our analysis addresses both optimization and generalization. We introduce a parametric formulation that reduces denoising score matching to a regression problem with noisy labels. This setting poses several challenges, including unbounded inputs, vector-valued outputs, and an additional time variable, which prevent a direct application of existing techniques. We show that, with a suitable design, the dynamics of GD-trained networks can be approximated by a sequence of localized kernel regression problems. We also show that prolonged training on noisy labels leads to overfitting, and derive an early-stopping rule adapted to unbounded domains. As a consequence, we establish the first minimax-optimal generalization bounds for GD-trained neural networks in diffusion models. Experiments on the Credit Default dataset further show that our theory-guided training framework achieves performance comparable to heavily tuned heuristic methods for generating high-fidelity financial tabular data.


翻译:扩散模型已成为生成式AI的主流范式,其中通过去噪分数匹配进行分数估算是核心组成部分。尽管近期理论提供了强有力的统计保证,但这些理论通常依赖于算法无关的假设,并将经验风险最小化视为精确求解的过程。然而在实际应用中,分数函数由高度非凸的神经网络参数化,并通过梯度下降(GD)进行训练,目前尚不清楚这类实际算法是否具有严格的理论保证。我们通过构建一个基于GD训练神经网络的分数估计数学框架,首次对该问题展开研究。我们的分析同时涵盖了优化与泛化两个方面。我们提出了一种参数化方法,将去噪分数匹配转化为带有噪声标签的回归问题。该设置面临多项挑战,包括无界输入、向量值输出以及额外的时间变量,这些因素导致现有技术无法直接应用。研究表明,通过合理设计,GD训练网络的动力学过程可近似为一系列局部化核回归问题。我们还发现,对噪声标签进行长时间训练会导致过拟合,并推导出适用于无界域的自适应早停规则。据此,我们建立了扩散模型中GD训练神经网络的第一个极小极大最优泛化界。在信用违约数据集上的实验进一步表明,我们理论指导的训练框架在生成高保真金融表格数据时,能够达到与精心调参的启发式方法相媲美的性能。

0
下载
关闭预览

相关内容

扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
生成式人工智能的扩散模型概述
专知会员服务
66+阅读 · 2024年12月8日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
超全总结:神经网络加速之量化模型 | 附带代码
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员