Masked Diffusion Language Models (MDLMs) have emerged as a distinct paradigm for sequence generation. As MDLMs become diverse in capabilities and knowledge coverage, an important question is how to combine their knowledge. Toward this, we first investigate the unique decoding dynamics of MDLMs. We find that successful generations exhibit stable confidence dynamics over answer-relevant positions, while unreliable trajectories can often be corrected by injecting promising intermediate states from other models. Guided by this observation, we propose $\textbf{TIE}$ ($\textbf{T}$rajectory-based $\textbf{I}$terative $\textbf{E}$nsembling), a knowledge fusion framework in which MDLMs iteratively identify reliable decoding trajectories and relay them across models. TIE tracks confidence dynamics over answer-relevant positions to determine which model currently follows a more reliable trajectory and selectively transfers partially denoised sequences across models. As the model on the more promising trajectory often changes across denoising steps, TIE allows different models to contribute complementary strengths at different stages of generation. Strong performance across diverse reasoning tasks, along with our analyses, suggests that TIE offers a practical approach to the underexplored problem of MDLM ensembling.


翻译:掩码扩散语言模型(MDLMs)已成为序列生成的一种独特范式。随着MDLMs在能力和知识覆盖范围上的多样化,如何整合它们的知识成为一个重要问题。为此,我们首先研究了MDLMs独特的解码动态。我们发现,成功的生成过程在答案相关位置上表现出稳定的置信度动态,而不可靠的轨迹通常可以通过注入来自其他模型的有希望中间状态来纠正。基于这一观察,我们提出了$\textbf{TIE}$(基于轨迹的$\textbf{迭代集成}$),这是一种知识融合框架,其中MDLMs迭代地识别可靠的解码轨迹并在模型之间传递它们。TIE跟踪答案相关位置上的置信度动态,以判断当前哪个模型遵循更可靠的轨迹,并选择性地跨模型转移部分去噪的序列。由于处于更优轨迹上的模型通常会在去噪步骤中发生变化,TIE允许不同模型在生成的不同阶段贡献互补的优势。在多种推理任务上的强劲性能以及我们的分析表明,TIE为MDLM集成这一尚未充分探索的问题提供了一种实用方法。

0
下载
关闭预览

相关内容

【ICCV2025】基于奖励引导解码的多模态大语言模型控制
专知会员服务
10+阅读 · 2025年8月19日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
【干货】深入理解自编码器(附代码实现)
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【ICCV2025】基于奖励引导解码的多模态大语言模型控制
专知会员服务
10+阅读 · 2025年8月19日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员