Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code, model checkpoints, and video tutorials on the project page: http://s-sahoo.github.io/duo


翻译:均匀态离散扩散模型因其固有的自校正能力,在快速文本生成方面展现出潜力。然而,其性能通常落后于自回归模型与掩码扩散模型。本研究通过揭示一个关键机制来缩小这一性能差距:均匀态扩散过程本质上源于底层的高斯扩散。我们提出的Duo方法,将高斯扩散中的强大技术迁移至离散领域,从而同时改进训练与采样过程。首先,我们引入一种由高斯过程引导的课程学习策略,通过降低方差使训练速度提升一倍。采用课程学习训练的模型在7项基准测试中的3项上,其零样本困惑度超越了自回归模型。其次,我们提出了离散一致性蒸馏算法,将连续域的一致性蒸馏技术适配至离散场景。该算法通过将采样速度提升两个数量级,实现了扩散语言模型中的少步生成。相关代码、模型检查点及视频教程已发布于项目页面:http://s-sahoo.github.io/duo

0
下载
关闭预览

相关内容

【CVPR2024】医学基础模型的低秩知识分解
专知会员服务
35+阅读 · 2024年4月29日
【AAAI2023】图上的非独立同分布迁移学习
专知会员服务
24+阅读 · 2022年12月25日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年6月3日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
33+阅读 · 2021年2月27日
专知会员服务
29+阅读 · 2020年10月2日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
Arxiv
0+阅读 · 1月26日
Arxiv
0+阅读 · 1月20日
Arxiv
0+阅读 · 1月19日
Arxiv
0+阅读 · 1月19日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
【CVPR2024】医学基础模型的低秩知识分解
专知会员服务
35+阅读 · 2024年4月29日
【AAAI2023】图上的非独立同分布迁移学习
专知会员服务
24+阅读 · 2022年12月25日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年6月3日
【WWW2021】场矩阵分解机推荐系统
专知会员服务
33+阅读 · 2021年2月27日
专知会员服务
29+阅读 · 2020年10月2日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
相关资讯
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关论文
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员