Diffusion language models enable any-order generation and bidirectional conditioning, offering appealing flexibility for tasks such as infilling, rewriting, and self-correction. However, their formulation-predicting one part of a sequence from another within a single-step dependency-limits modeling depth and often yields lower sample quality and stability than autoregressive (AR) models. To address this, we revisit autoregressive modeling as a foundation and reformulate diffusion-style training into a structured multi-group prediction process. We propose Any-order Any-subset Autoregressive modeling (A3), a generalized framework that extends the standard AR factorization to arbitrary token groups and generation orders. A3 preserves the probabilistic rigor and multi-layer dependency modeling of AR while inheriting diffusion models' flexibility for parallel and bidirectional generation. We implement A3 through a two-stream attention architecture and a progressive adaptation strategy that transitions pretrained AR models toward any-order prediction. Experiments on question answering, commonsense reasoning, and story infilling demonstrate that A3 outperforms diffusion-based models while maintaining flexible decoding. This work offers a unified approach for a flexible, efficient, and novel language modeling paradigm.


翻译:扩散语言模型支持任意顺序生成和双向条件约束,为填充、改写和自校正等任务提供了诱人的灵活性。然而,其公式——在单步依赖关系中从序列的一部分预测另一部分——限制了建模深度,且通常导致样本质量和稳定性低于自回归模型。为解决此问题,我们重新审视自回归建模作为基础框架,并将扩散式训练重新表述为结构化的多组预测过程。我们提出任意顺序任意子集自回归建模,这是一个将标准自回归分解推广至任意词元组和生成顺序的通用框架。A3 保持了自回归模型的概率严谨性和多层依赖建模能力,同时继承了扩散模型在并行和双向生成方面的灵活性。我们通过双流注意力架构和渐进适应策略实现 A3,该策略将预训练的自回归模型逐步过渡至任意顺序预测。在问答、常识推理和故事填充任务上的实验表明,A3 在保持灵活解码能力的同时,性能优于基于扩散的模型。这项工作为灵活、高效且新颖的语言建模范式提供了一种统一方法。

0
下载
关闭预览

相关内容

用于语言生成的离散扩散模型
专知会员服务
11+阅读 · 2025年7月10日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员