From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs - 专知论文

会员服务 ·

0

路径 · 增强现实（AR） · 扩散语言模型 · 上下文 · 词元 ·

From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

翻译：从下一词元到下一区块：扩散语言模型的原则性适应路径

Yuchuan Tian,Yuchen Liang,Shuo Zhang,Yingte Shu,Guangwen Yang,Wei He,Sibo Fang,Tianyu Guo,Kai Han,Chao Xu,Hanting Chen,Xinghao Chen,Yunhe Wang

from arxiv, 14 pages, 5 figures

Diffusion Language Models (DLMs) enable fast generation, yet training large DLMs from scratch is costly. As a practical shortcut, adapting off-the-shelf Auto-Regressive (AR) model weights into a DLM could quickly equip the DLM with strong long-context generation capabilies. Prior "adaptation" attempts either modify logits or randomly grow attention masks to Full-Sequence diffusion, or simply transplant AR weights into a Block-Diffusion recipe, leaving two key questions unaddressed: where is the final destination of adaptation, and how to adapt better? For manifold benefits, we reframe the whole AR-to-DLM adaptation under the Block-Diffusion paradigm, transitioning from block size 1 to the final Block-Diffusion state. Concretely, the principled pathway of adaptation is designed as follows: we keep a context-causal path where causal attention is kept in the prefix, an efficient parallel adaptation procedure where an AR guidance is maintained, and gradual increment of the generation block size for a smoother transition. Built on these components, the adaptation is proved competitive on various models at different scales. With better adaptation, we propose NBDiff-7B that could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs. Codes: https://github.com/YuchuanTian/NBDiff.

翻译：扩散语言模型（DLMs）能够实现快速生成，但从头训练大型DLMs成本高昂。作为一种实用捷径，将现成的自回归（AR）模型权重适配到DLM中，可以快速赋予DLM强大的长上下文生成能力。先前的“适应”尝试要么修改逻辑值或将注意力掩码随机扩展至全序列扩散，要么简单地将AR权重移植到区块扩散方案中，留下了两个关键问题未解决：适应的最终目标是什么？以及如何更好地进行适应？为了获得多方面优势，我们在区块扩散范式下重新构建了整个AR到DLM的适应过程，从区块大小为1过渡到最终的区块扩散状态。具体而言，原则性的适应路径设计如下：我们保留一个上下文因果路径，其中前缀部分保持因果注意力；采用高效的并行适应程序，维持AR引导；并逐步增加生成区块大小以实现更平滑的过渡。基于这些组件，该适应方法在不同规模的多种模型上被证明具有竞争力。通过更好的适应，我们提出了NBDiff-7B模型，它能够继承长上下文建模和推理能力，并在7B级DLMs中实现最先进的性能。代码：https://github.com/YuchuanTian/NBDiff。

0

相关内容

内省扩散语言模型

内省扩散语言模型

专知会员服务

13+阅读 · 4月14日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【ICML2025】扩散模型的二重性

【ICML2025】扩散模型的二重性

专知会员服务

10+阅读 · 2025年6月13日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

复合材料板壳结构低速冲击损伤问题的扩展逐层理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Arxiv

0+阅读 · 2月26日

Adaptation to Intrinsic Dependence in Diffusion Language Models

Arxiv

0+阅读 · 2月23日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月23日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月20日

Sink-Aware Pruning for Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

Arxiv

0+阅读 · 2月11日

Step-Wise Refusal Dynamics in Autoregressive and Diffusion Language Models

Arxiv

0+阅读 · 2月7日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Lookahead Path Likelihood Optimization for Diffusion LLMs

Arxiv

0+阅读 · 2月3日

FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

增强现实（AR）

扩散语言模型

最新内容

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

1+阅读 · 48分钟前

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

1+阅读 · 今天14:30

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

1+阅读 · 今天14:26

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

1+阅读 · 今天14:22

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

2+阅读 · 今天14:12

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

18+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

9+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

22+阅读 · 6月2日

相关VIP内容

内省扩散语言模型

内省扩散语言模型

专知会员服务

13+阅读 · 4月14日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【ICML2025】扩散模型的二重性

【ICML2025】扩散模型的二重性

专知会员服务

10+阅读 · 2025年6月13日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《美陆军最新条令：兵力防护》

《人工智能的挑战：算法战的想象与现实》

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Arxiv

0+阅读 · 2月26日

Adaptation to Intrinsic Dependence in Diffusion Language Models

Arxiv

0+阅读 · 2月23日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月23日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 2月20日

Sink-Aware Pruning for Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

Arxiv

0+阅读 · 2月11日

Step-Wise Refusal Dynamics in Autoregressive and Diffusion Language Models

Arxiv

0+阅读 · 2月7日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Lookahead Path Likelihood Optimization for Diffusion LLMs

Arxiv

0+阅读 · 2月3日

FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models

Arxiv

0+阅读 · 2月2日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

复合材料板壳结构低速冲击损伤问题的扩展逐层理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员