Diffusion Language Models (DLMs) generate text by iteratively denoising masked token sequences, offering a tradeoff between parallelism and quality compared to autoregressive models. In current practice, the number of tokens decoded per step is controlled by a confidence threshold, and quality degrades monotonically as more tokens are denoised per step. We introduce Multi-token Residual Prediction (MRP), a lightweight module that enables dependency-aware multi-token denoising within a single backbone forward pass. MRP exploits a key property of the denoising process: the logit distributions at adjacent denoising steps are remarkably similar. Rather than running the backbone a second time to obtain the next-step logits, MRP predicts the residual between steps from the backbone's hidden states, effectively denoising more tokens per backbone forward at a fraction of the cost. We apply MRP across the two operating regimes of DLM decoding. In the high-quality-low-throughput static denoising regime, MRP serves as a drafter for speculative decoding: its proposals are verified against the backbone, yielding lossless acceleration of up to 1.4x in SGLang. In the low-quality-high-throughput dynamic denoising regime, MRP instead drives a remasking scheme that revokes over-eager reveals, recovering most of the accuracy lost to aggressive low-threshold decoding and improving accuracy by up to 22.6 points on code generation task HumanEval and 17.7 points on reasoning task GSM8K.


翻译:扩散语言模型(Diffusion Language Models, DLMs)通过迭代去噪掩码令牌序列生成文本,与自回归模型相比,在并行性和生成质量之间实现了权衡。在当前实践中,每步解码的令牌数量由置信度阈值控制,且随着每步去噪令牌数增加,生成质量会单调下降。我们提出多令牌残差预测(Multi-token Residual Prediction, MRP),这是一种轻量级模块,能够在单次骨干网络前向传播中实现依赖感知的多令牌去噪。MRP利用了去噪过程的一个关键特性:相邻去噪步的logit分布高度相似。MRP并非通过第二次运行骨干网络来获取下一步logit,而是从骨干网络隐藏状态中预测步间残差,从而以极小代价在每次骨干网络前向传播中有效去噪更多令牌。我们将MRP应用于DLM解码的两种运行模式。在高质量-低吞吐量的静态去噪模式下,MRP作为投机解码的起草模块:其提案经骨干网络验证后,在SGLang中可实现最高1.4倍的损失感知加速。在低质量-高吞吐量的动态去噪模式下,MRP则驱动一种修正过度解码的重掩码方案,可恢复因激进低阈值解码丢失的大部分准确率,在代码生成任务HumanEval上提升准确率最高达22.6个百分点,在推理任务GSM8K上提升17.7个百分点。

0
下载
关闭预览

相关内容

内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
手把手教你构建ResNet残差网络
专知
38+阅读 · 2018年4月27日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员