Masked diffusion models (MDMs) have recently emerged as a promising paradigm for sequence generation. Scaling MDMs is conventionally achieved by increasing the parameter count or the number of denoising steps. We introduce Recursive Masked Diffusion Models (R-MDMs), which add recursive depth as a third scaling axis by repeatedly applying the same denoising transformer within each diffusion step. Recursion enables iterative refinement of the output through parameter reuse, increasing effective model depth without increasing parameter count. Across structured generation tasks, including Sudoku and Countdown, we show that R-MDMs achieve substantially improved parameter efficiency: a model with $L$ recursive iterations often matches the performance of non-recursive baselines with roughly $L\times$ more parameters. Moreover, recursive refinement can partially substitute for additional denoising steps, allowing recursive models to reach the same generation quality with fewer forward passes at inference time. These results suggest that recursive depth is a practically useful scaling mechanism for MDMs, improving both parameter efficiency and the allocation of test-time compute.


翻译:掩码扩散模型(MDMs)近期已成为序列生成领域的一种有前景范式。传统上,扩展MDMs主要通过增加参数数量或去噪步数实现。本文提出递归掩码扩散模型(R-MDMs),通过在每个扩散步骤中重复应用相同的去噪Transformer,将递归深度作为第三扩展轴。递归机制通过参数复用量化输出迭代精炼,在不增加参数量的情况下提升有效模型深度。在数独与Countdown等结构化生成任务中,我们证明R-MDMs能够显著提升参数效率:一个具有L次递归迭代的模型,其性能往往可与参数规模约为L倍的非递归基线模型相媲美。此外,递归精炼可部分替代额外的去噪步骤,使递归模型在推理时以更少的前向传播次数达到相同生成质量。这些结果表明,递归深度对MDMs而言是一种具有实际应用价值的扩展机制,既能提升参数效率,又能优化测试时计算资源的分配。

0
下载
关闭预览

相关内容

扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
生成式人工智能的扩散模型概述
专知会员服务
66+阅读 · 2024年12月8日
《扩散模型》最新教程,141页ppt
专知会员服务
79+阅读 · 2024年12月2日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员