Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. Despite their promise, these models typically produce samples whose quality sharply degrades in the few-step regime, preventing a dramatic speedup in practice. Here, we show that language models based on continuous flows over one-hot token embeddings can outperform discrete diffusion in both quality and speed. Importantly, our continuous formulation defines a unique flow map that can be learned directly for efficient few-step inference, a structure we show is unavailable to discrete methods. In this setting, we show that both the flow and its associated flow map can be learned with simple cross-entropy objectives that respect the simplex geometry of the data, and we identify three distinct choices for flow map distillation whose performance we compare in practice. Using these insights, we build a flow language model (FLM), a continuous flow that matches state-of-the-art discrete diffusion baselines on the One Billion Words (LM1B) and OpenWebText (OWT) datasets. We then distill FLM into a flow map language model (FMLM), whose one-step generation exceeds the 8-step quality of recent few-step discrete diffusion language models. Our work challenges the widely-held hypothesis that discrete noising processes are necessary for generative modeling over discrete modalities and paves the way toward accelerated language modeling at scale. Code is available at https://github.com/david3684/flm.


翻译:基于离散扩散的语言模型因具有比自回归模型更快生成的潜力而受到广泛关注。然而,这些模型生成的样本质量通常在少步数机制下急剧下降,从而阻碍了实际中的显著加速。在此,我们表明基于独热词嵌入连续流的语言模型在质量和速度上均能超越离散扩散方法。重要的是,我们的连续公式定义了一个独特的流图,可直接学习以实现高效的少步推理,而这一结构在离散方法中无法实现。在此设定下,我们证明了流及其关联的流图均可通过符合数据单纯形几何结构的简单交叉熵目标来学习,并确定了三种不同的流图蒸馏策略,在实际中比较了它们的性能。利用这些见解,我们构建了流语言模型(FLM),这是一种连续流,在十亿词(LM1B)和OpenWebText(OWT)数据集上达到了与最先进离散扩散基线相当的性能。随后,我们将FLM蒸馏为流图语言模型(FMLM),其单步生成质量超过了近期少步离散扩散语言模型的8步生成质量。我们的工作挑战了"离散模态生成建模必须依赖离散噪声过程"这一广泛假设,并为大规模加速语言建模铺平了道路。代码开源于https://github.com/david3684/flm。

0
下载
关闭预览

相关内容

内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
《大型语言模型加速生成技术》最新综述
专知会员服务
50+阅读 · 2024年5月25日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
《大型语言模型加速生成技术》最新综述
专知会员服务
50+阅读 · 2024年5月25日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员