Discrete diffusion models have emerged as a powerful class of models and a promising route to fast language generation, but practical implementations typically rely on factored reverse transitions that ignore cross-token dependencies and degrade performance in the few-step regime. We propose Latent-Augmented Discrete Diffusion (LADD), which introduces a learnable auxiliary latent channel and performs diffusion over the joint (token, latent) space. The latent variables provide an intermediate representation that can express joint structure while preserving tractable parameterizations. We instantiate LADD with continuous latents (Co-LADD) and discrete latents (Di-LADD), and study two inference schedules: a joint diffusion that denoises data and latents together, and a sequential diffusion that first resolves latents and then samples tokens conditionally. We derive ELBO-style objectives and analyze design choices that balance latent expressivity with diffusion compatibility. In experiments, LADDs yield improvements on unconditional generation metrics as compared to state-of-the-art masked discrete diffusion baselines, and are effective at lower sampling budgets, where unmasking many tokens per step is desirable.


翻译:离散扩散模型已成为一类强大的模型,也是实现快速语言生成的有前景途径,但实际实现通常依赖于忽略跨标记依赖性的分解逆向转移,从而在少步采样机制下降低性能。我们提出潜在增强离散扩散(LADD),该方法引入可学习的辅助潜在通道并在联合(标记、潜在)空间上进行扩散。潜在变量提供了一种中间表示,能够表达联合结构同时保持可处理的参数化。我们通过连续潜在(Co-LADD)和离散潜在(Di-LADD)实例化LADD,并研究两种推断调度:联合扩散(同时去噪数据和潜在变量)与顺序扩散(先解析潜在变量再条件采样标记)。我们推导出基于ELBO的目标函数,并分析平衡潜在表达能力与扩散兼容性的设计选择。实验表明,相较于最先进的掩码离散扩散基线,LADD在无条件生成指标上取得改进,且在较低采样预算下(此时每步需解掩大量标记)表现优异。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力
专知会员服务
17+阅读 · 2024年10月4日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月6日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
面向低光照图像增强的扩散模型
专知会员服务
15+阅读 · 2025年10月11日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力
专知会员服务
17+阅读 · 2024年10月4日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员