Diffusion models over discrete spaces have recently shown striking empirical success, yet their theoretical foundations remain incomplete. In this paper, we study the sampling efficiency of score-based discrete diffusion models under a continuous-time Markov chain (CTMC) formulation, with a focus on $τ$-leaping-based samplers. We establish sharp convergence guarantees for attaining $\varepsilon$ accuracy in Kullback-Leibler (KL) divergence for both uniform and masking noising processes. For uniform discrete diffusion, we show that the $τ$-leaping algorithm achieves an iteration complexity of order $\tilde O(d/\varepsilon)$, with $d$ the ambient dimension of the target distribution, eliminating linear dependence on the vocabulary size $S$ and improving existing bounds by a factor of $d$; moreover, we establish a matching algorithmic lower bound showing that linear dependence on the ambient dimension is unavoidable in general. For masking discrete diffusion, we introduce a modified $τ$-leaping sampler whose convergence rate is governed by an intrinsic information-theoretic quantity, termed the effective total correlation, which is bounded by $d \log S$ but can be sublinear or even constant for structured data. As a consequence, the sampler provably adapts to low-dimensional structure without prior knowledge or algorithmic modification, yielding sublinear convergence rates for various practical examples (such as hidden Markov models, image data, and random graphs). Our analysis requires no boundedness or smoothness assumptions on the score estimator beyond control of the score entropy loss.


翻译:离散空间上的扩散模型近期展现出显著的实证成功,但其理论基础仍不完整。本文在连续时间马尔可夫链(CTMC)框架下研究基于分数的离散扩散模型的采样效率,重点关注基于$τ$跳跃的采样器。我们针对均匀噪声化过程与掩码噪声化过程,为达到Kullback-Leibler(KL)散度$\varepsilon$精度建立了锐利的收敛性保证。对于均匀离散扩散,我们证明$τ$跳跃算法实现了$\tilde O(d/\varepsilon)$阶的迭代复杂度,其中$d$为目标分布的维度,消除了对词汇表大小$S$的线性依赖,并将现有界限改进了$d$倍;此外,我们建立了一个匹配的算法下界,表明对维度的线性依赖在一般情况下是不可避免的。对于掩码离散扩散,我们引入了一种改进的$τ$跳跃采样器,其收敛速率由一个内在的信息论量——有效总相关——所主导,该量以$d \log S$为上界,但对于结构化数据可以是次线性甚至常数的。因此,该采样器无需先验知识或算法修改即可自适应于低维结构,为多种实际示例(如隐马尔可夫模型、图像数据和随机图)产生次线性收敛速率。我们的分析除对分数熵损失的控制外,无需对分数估计器施加有界性或光滑性假设。

0
下载
关闭预览

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关VIP内容
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员