Diffusion Large Language Models (DLLMs) are inherently ill-suited for variable-length generation, as their inference is defined on a fixed-length canvas and implicitly assumes a known target length. When the length is unknown, as in realistic completion and infilling, naively comparing confidence across mask lengths becomes systematically biased, leading to under-generation or redundant continuations. In this paper, we show that this failure arises from an intrinsic lengthinduced bias in generation confidence estimates, leaving existing DLLMs without a robust way to determine generation length and making variablelength inference unreliable. To address this issue, we propose LR-DLLM, a length-regularized inference framework for DLLMs that treats generation length as an explicit variable and achieves reliable length determination at inference time. It decouples semantic compatibility from lengthinduced uncertainty through an explicit length regularization that corrects biased confidence estimates. Based on this, LR-DLLM enables dynamic expansion or contraction of the generation span without modifying the underlying DLLM or its training procedure. Experiments show that LRDLLM achieves 51.3% Pass@1 on HumanEvalInfilling under fully unknown lengths (+13.4% vs. DreamOn) and 51.5% average Pass@1 on four-language McEval (+14.3% vs. DreamOn).


翻译:扩散大语言模型(DLLMs)本质上不适用于变长生成,因为其推理过程定义在固定长度的画布上,并隐式假设目标长度已知。当长度未知时(例如在实际的补全和填充任务中),直接比较不同掩码长度下的置信度会产生系统性偏差,导致生成不足或冗余延续。本文指出,这种失败源于生成置信度估计中固有的长度诱导偏差,使得现有DLLMs缺乏确定生成长度的稳健方法,导致变长推理不可靠。为解决此问题,我们提出LR-DLLM,一种面向DLLMs的长度正则化推理框架,该框架将生成长度视为显式变量,并在推理时实现可靠的长度确定。它通过显式的长度正则化,将语义兼容性与长度诱导的不确定性解耦,从而校正有偏的置信度估计。在此基础上,LR-DLLM能够在不修改底层DLLM或其训练过程的情况下,动态扩展或收缩生成跨度。实验表明,在长度完全未知的情况下,LR-DLLM在HumanEvalInfilling上实现了51.3%的Pass@1(较DreamOn提升13.4%),并在四语言McEval上平均达到51.5%的Pass@1(较DreamOn提升14.3%)。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
11+阅读 · 2025年7月10日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员