Masked Diffusion Models (MDMs) offer greater flexibility in decoding order than autoregressive models but require careful planning to achieve high-quality generation. Existing samplers typically adopt greedy heuristics, prioritizing positions with the highest local certainty to decode at each step. Through failure case analysis, we identify a fundamental limitation of this approach: it neglects the downstream impact of current decoding choices on subsequent steps and fails to minimize cumulative uncertainty. In particular, these methods do not fully exploit the non-causal nature of MDMs, which enables evaluating how a decoding decision reshapes token probabilities/uncertainty across all remaining masked positions. To bridge this gap, we propose the Info-Gain Sampler, a principled decoding framework that balances immediate uncertainty with information gain over future masked tokens. Extensive evaluations across diverse architectures and tasks (reasoning, coding, creative writing, and image generation) demonstrate that Info-Gain Sampler consistently outperforms existing samplers for MDMs. For instance, it achieves a 3.6% improvement in average accuracy on reasoning tasks and a 63.1% win-rate in creative writing. Notably, on reasoning tasks it reduces cumulative uncertainty from 78.4 to 48.6, outperforming the best baseline by a large margin. The code will be available at https://github.com/yks23/Information-Gain-Sampler.


翻译:掩码扩散模型(MDMs)相比自回归模型在解码顺序上具有更高的灵活性,但需要精心规划以实现高质量生成。现有采样器通常采用贪心启发式策略,在每一步优先解码局部确定性最高的位置。通过失败案例分析,我们发现该方法存在根本性局限:忽略了当前解码选择对后续步骤的下游影响,且未能最小化累积不确定性。具体而言,这些方法未能充分利用MDMs的非因果特性——该特性使得评估解码决策如何重塑所有剩余掩码位置的标记概率/不确定性成为可能。为弥补这一缺陷,我们提出信息增益采样器,这是一种平衡即时不确定性与未来掩码标记信息增益的原则性解码框架。在多样化架构与任务(推理、代码生成、创意写作及图像生成)上的广泛评估表明,信息增益采样器在MDMs中持续优于现有采样器。例如,其在推理任务上的平均准确率提升3.6%,在创意写作任务中获胜率达63.1%。值得注意的是,在推理任务中它将累积不确定性从78.6降至48.6,显著超越最佳基线方法。代码将在https://github.com/yks23/Information-Gain-Sampler公开。

0
下载
关闭预览

相关内容

信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。 在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月6日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 39分钟前
软件定义多域战术网络:基础与未来方向(综述)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员