突破自回归模型的采样瓶颈：基于扩散语言模型的可证明加速 (Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models) - 专知论文

会员服务 ·

0

扩散语言模型 · 语言模型 · 词元 · 分析 · 序列 ·

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

翻译：突破自回归模型的采样瓶颈：基于扩散语言模型的可证明加速

Gen Li,Changxiao Cai

from arxiv, This is the full version of a paper published at NeurIPS 2025

Diffusion models have emerged as a powerful paradigm for modern generative modeling, demonstrating strong potential for large language models (LLMs). Unlike conventional autoregressive (AR) models that generate tokens sequentially, diffusion models allow for parallel sampling, offering a promising path to accelerate generation and eliminate the left-to-right generation constraints. Despite their empirical success, theoretical understandings of diffusion language models remain underdeveloped. In this work, we develop convergence guarantees for diffusion language models from an information-theoretic perspective. Our analysis demonstrates that the sampling error, measured by the Kullback-Leibler (KL) divergence, decays inversely with the number of iterations $T$ and scales linearly with the mutual information between tokens in the target text sequence. Crucially, our theory covers the regime $T<L$, where $L$ is the text sequence length. This justifies that high-quality samples can be generated with fewer iterations than $L$, thereby breaking the fundamental sampling bottleneck of $L$ steps required by AR models. We further establish matching upper and lower bounds, up to some constant factor, that shows the tightness of our convergence analysis. These results offer novel theoretical insights into the practical effectiveness of diffusion language models.

翻译：扩散模型已成为现代生成建模的强大范式，在大语言模型（LLMs）领域展现出巨大潜力。与传统的自回归（AR）模型逐词元顺序生成不同，扩散模型支持并行采样，为加速生成和消除从左到右的生成约束提供了可行路径。尽管扩散模型在实证上取得了成功，但其理论理解仍不充分。本文从信息论角度为扩散语言模型建立了收敛性保证。我们的分析表明，以Kullback-Leibler（KL）散度衡量的采样误差随迭代次数$T$呈反比衰减，并与目标文本序列中词元间的互信息呈线性关系。关键的是，我们的理论覆盖了$T<L$的区间，其中$L$为文本序列长度。这证明了高质量样本可以在少于$L$次迭代中生成，从而突破了AR模型所需$L$步的基本采样瓶颈。我们进一步建立了匹配的上下界（至常数因子），证明了收敛分析的紧致性。这些结果为扩散语言模型的实际有效性提供了新的理论见解。

0

相关内容

扩散语言模型

扩散语言模型

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

唯快不破：大型语言模型高效架构综述

唯快不破：大型语言模型高效架构综述

专知会员服务

24+阅读 · 2025年8月17日

扩散语言模型综述

扩散语言模型综述

专知会员服务

18+阅读 · 2025年8月15日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

11+阅读 · 2025年7月10日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

《大型语言模型加速生成技术》最新综述

《大型语言模型加速生成技术》最新综述

专知会员服务

50+阅读 · 2024年5月25日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

Time-Annealed Perturbation Sampling: Diverse Generation for Diffusion Language Models

Arxiv

0+阅读 · 1月30日

Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs

Arxiv

0+阅读 · 1月28日

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Arxiv

0+阅读 · 1月26日

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Arxiv

0+阅读 · 1月21日

Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants

Arxiv

0+阅读 · 1月20日

Breaking Diffusion with Cache: Exploiting Approximate Caches in Diffusion Models

Arxiv

0+阅读 · 1月18日

Unlocking the Potentials of Retrieval-Augmented Generation for Diffusion Language Models

Arxiv

0+阅读 · 1月16日

Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

Arxiv

0+阅读 · 1月16日

Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding

Arxiv

0+阅读 · 1月14日

Diffusion Language Models are Provably Optimal Parallel Samplers

Arxiv

1+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

扩散语言模型

相关VIP内容

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

唯快不破：大型语言模型高效架构综述

唯快不破：大型语言模型高效架构综述

专知会员服务

24+阅读 · 2025年8月17日

扩散语言模型综述

扩散语言模型综述

专知会员服务

18+阅读 · 2025年8月15日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

11+阅读 · 2025年7月10日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

《大型语言模型加速生成技术》最新综述

《大型语言模型加速生成技术》最新综述

专知会员服务

50+阅读 · 2024年5月25日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Time-Annealed Perturbation Sampling: Diverse Generation for Diffusion Language Models

Arxiv

0+阅读 · 1月30日

Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs

Arxiv

0+阅读 · 1月28日

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Arxiv

0+阅读 · 1月26日

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Arxiv

0+阅读 · 1月21日

Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants

Arxiv

0+阅读 · 1月20日

Breaking Diffusion with Cache: Exploiting Approximate Caches in Diffusion Models

Arxiv

0+阅读 · 1月18日

Unlocking the Potentials of Retrieval-Augmented Generation for Diffusion Language Models

Arxiv

0+阅读 · 1月16日

Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

Arxiv

0+阅读 · 1月16日

Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding

Arxiv

0+阅读 · 1月14日

Diffusion Language Models are Provably Optimal Parallel Samplers

Arxiv

1+阅读 · 2025年12月31日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员