Post-training pretrained Autoregressive models (ARMs) into Masked Diffusion models (MDMs) has emerged as a cost-effective strategy to overcome the limitations of sequential generation. However, the internal algorithmic transformations induced by this paradigm shift remain unexplored, leaving it unclear whether post-trained MDMs acquire genuine bidirectional reasoning capabilities or merely repackage autoregressive heuristics. In this work, we address this question by conducting a comparative circuit analysis of ARMs and their MDM counterparts. Our analysis reveals a systematic "mechanism shift" dependent on the structural nature of the task. Structurally, we observe a distinct divergence: while MDMs largely retain autoregressive circuitry for tasks dominated by local causal dependencies, they abandon initialized pathways for global planning tasks, exhibiting distinct rewiring characterized by increased early-layer processing. Semantically, we identify a transition from sharp, localized specialization in ARMs to distributed integration in MDMs. Through these findings, we conclude that diffusion post-training does not merely adapt model parameters but fundamentally reorganizes internal computation to support non-sequential global planning.


翻译:将预训练的自回归模型(ARMs)后训练为掩码扩散模型(MDMs)已成为一种克服序列生成局限性的经济有效策略。然而,这种范式转变所引发的内部算法转换机制尚未得到探索,目前尚不清楚后训练的MDMs是否真正获得了双向推理能力,还是仅仅重新包装了自回归启发式方法。本研究通过对比分析ARMs及其对应MDMs的电路结构来探讨这一问题。我们的分析揭示了一种依赖于任务结构性质的系统性“机制转变”。在结构层面,我们观察到明显的分化:对于主要由局部因果依赖主导的任务,MDMs在很大程度上保留了自回归电路;而对于全局规划任务,它们则放弃了初始化的路径,表现出以增强早期层处理为特征的独特重连模式。在语义层面,我们识别出从ARMs中尖锐的局部专业化到MDMs中分布式整合的转变。通过这些发现,我们得出结论:扩散后训练不仅调整模型参数,而且从根本上重组了内部计算机制以支持非序列化的全局规划。

0
下载
关闭预览

相关内容

扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大模型如何迭代?北大等《大型语言模型自我进化》综述
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
1+阅读 · 今天14:47
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
1+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
1+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 今天3:12
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员