Recursive Scaling in Masked Diffusion Models - 专知论文

会员服务 ·

0

掩码 · 去噪 · 缩放 · 相同 · 扩散模型 ·

Recursive Scaling in Masked Diffusion Models

翻译：递归缩放掩码扩散模型

Alba Carballo-Castro,Julianna Piskorz,Paulius Rauba,Mihaela van der Schaar,Pascal Frossard

Masked diffusion models (MDMs) have recently emerged as a promising paradigm for sequence generation. Scaling MDMs is conventionally achieved by increasing the parameter count or the number of denoising steps. We introduce Recursive Masked Diffusion Models (R-MDMs), which add recursive depth as a third scaling axis by repeatedly applying the same denoising transformer within each diffusion step. Recursion enables iterative refinement of the output through parameter reuse, increasing effective model depth without increasing parameter count. Across structured generation tasks, including Sudoku and Countdown, we show that R-MDMs achieve substantially improved parameter efficiency: a model with $L$ recursive iterations often matches the performance of non-recursive baselines with roughly $L\times$ more parameters. Moreover, recursive refinement can partially substitute for additional denoising steps, allowing recursive models to reach the same generation quality with fewer forward passes at inference time. These results suggest that recursive depth is a practically useful scaling mechanism for MDMs, improving both parameter efficiency and the allocation of test-time compute.

翻译：掩码扩散模型（MDMs）近期已成为序列生成领域的一种有前景范式。传统上，扩展MDMs主要通过增加参数数量或去噪步数实现。本文提出递归掩码扩散模型（R-MDMs），通过在每个扩散步骤中重复应用相同的去噪Transformer，将递归深度作为第三扩展轴。递归机制通过参数复用量化输出迭代精炼，在不增加参数量的情况下提升有效模型深度。在数独与Countdown等结构化生成任务中，我们证明R-MDMs能够显著提升参数效率：一个具有L次递归迭代的模型，其性能往往可与参数规模约为L倍的非递归基线模型相媲美。此外，递归精炼可部分替代额外的去噪步骤，使递归模型在推理时以更少的前向传播次数达到相同生成质量。这些结果表明，递归深度对MDMs而言是一种具有实际应用价值的扩展机制，既能提升参数效率，又能优化测试时计算资源的分配。

0

相关内容

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

67+阅读 · 2024年12月8日

《扩散模型》最新教程，141页ppt

《扩散模型》最新教程，141页ppt

专知会员服务

79+阅读 · 2024年12月2日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

专知会员服务

33+阅读 · 2024年1月28日

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

专知会员服务

64+阅读 · 2022年11月19日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

【资源】深度学习模型压缩资源汇总

【资源】深度学习模型压缩资源汇总

专知

38+阅读 · 2019年5月8日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Arxiv

0+阅读 · 6月16日

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Arxiv

0+阅读 · 6月15日

Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Arxiv

0+阅读 · 6月15日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 6月12日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Blind denoising diffusion models and the blessings of dimensionality

Arxiv

0+阅读 · 6月9日

Backdooring Masked Diffusion Language Models

Arxiv

0+阅读 · 6月2日

Looped Diffusion Language Models

Arxiv

0+阅读 · 5月25日

Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models

Arxiv

0+阅读 · 5月25日

Backdooring Masked Diffusion Language Models

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

67+阅读 · 2024年12月8日

《扩散模型》最新教程，141页ppt

《扩散模型》最新教程，141页ppt

专知会员服务

79+阅读 · 2024年12月2日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

何恺明等最新步步解构扩散模型，最后竟成经典去噪自编码器

专知会员服务

33+阅读 · 2024年1月28日

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

专知会员服务

64+阅读 · 2022年11月19日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

【资源】深度学习模型压缩资源汇总

【资源】深度学习模型压缩资源汇总

专知

38+阅读 · 2019年5月8日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Arxiv

0+阅读 · 6月16日

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models

Arxiv

0+阅读 · 6月15日

Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Arxiv

0+阅读 · 6月15日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 6月12日

Recursively Trained Diffusion Models: Limiting Collapse Distribution and Spectral Characterization

Arxiv

0+阅读 · 6月11日

Blind denoising diffusion models and the blessings of dimensionality

Arxiv

0+阅读 · 6月9日

Backdooring Masked Diffusion Language Models

Arxiv

0+阅读 · 6月2日

Looped Diffusion Language Models

Arxiv

0+阅读 · 5月25日

Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models

Arxiv

0+阅读 · 5月25日

Backdooring Masked Diffusion Language Models

Arxiv

0+阅读 · 5月19日

相关基金

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员