While Autoregressive (AR) Transformer-based Generative Language Models are frequently employed for lookahead tasks, recent research suggests a potential discrepancy in their ability to perform planning tasks that require multi-step lookahead. In this work, we investigate the distinct emergent mechanisms that arise when training AR versus Non-Autoregressive (NAR) models, such as Discrete Diffusion Models (dLLMs), on lookahead tasks. By requiring the models to plan ahead to reach the correct conclusion, we analyze how these two paradigms fundamentally differ in their approach to the problem. We identify a critical asymmetry in planning problems: while forward generation requires complex lookahead at branching junctions, reverse generation is often deterministic. This asymmetry creates an opportunity for NAR models. Through mechanistic analysis of training and inference dynamics, we demonstrate that NAR models learn to solve planning tasks by utilizing future tokens to decode backwards, avoiding the need to learn complex traversal mechanisms entirely. Consequently, we report that both AR and NAR models are able to achieve perfect accuracy on the lookahead task. However, NAR models require exponentially fewer training examples and shallower architectures compared to AR models, which often fail to converge without specific curriculum adjustments.


翻译:尽管基于自回归(AR)Transformer的生成语言模型常被用于前瞻任务,但近期研究表明,它们在执行需要多步前瞻的规划任务时可能存在能力差异。本研究探讨了在训练自回归模型与非自回归(NAR)模型(如离散扩散模型dLLMs)处理前瞻任务时,两者产生的不同涌现机制。通过要求模型进行前瞻规划以得出正确结论,我们分析了这两种范式在问题处理方式上的根本差异。我们发现规划问题中存在关键的非对称性:虽然前向生成在分支节点需要复杂的前瞻,但反向生成往往是确定性的。这种非对称性为非自回归模型创造了机会。通过对训练和推理动态的机制分析,我们证明非自回归模型通过利用未来标记进行反向解码来学习解决规划任务,从而完全避免了学习复杂遍历机制的需要。实验结果表明,自回归与非自回归模型均能在前瞻任务中实现完美准确率。然而,与需要特定课程调整才能收敛的自回归模型相比,非自回归模型所需的训练样本数量呈指数级减少,且网络结构更浅。

0
下载
关闭预览

相关内容

内省扩散语言模型
专知会员服务
11+阅读 · 4月14日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
【ICML2025】扩散模型的二重性
专知会员服务
10+阅读 · 2025年6月13日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月24日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
内省扩散语言模型
专知会员服务
11+阅读 · 4月14日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
【ICML2025】扩散模型的二重性
专知会员服务
10+阅读 · 2025年6月13日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员