Recent advances in block diffusion language models have demonstrated competitive performance and strong scalability on reasoning tasks. However, existing BDLMs have limited exploration under the test-time scaling setting and face more severe decoding challenges in long Chain-of-Thought reasoning, particularly in balancing the decoding speed and effectiveness. In this work, we propose a unified framework for test-time scaling in BDLMs that introduces adaptivity in both decoding and block-wise generation. At the decoding level, we propose Bounded Adaptive Confidence Decoding (BACD), a difficulty-aware sampling strategy that dynamically adjusts denoising based on model confidence, accelerating inference while controlling error accumulation. Beyond step-wise adaptivity, we introduce Think Coarse, Critic Fine (TCCF), a test-time scaling paradigm that allocates large block sizes to exploratory reasoning and smaller block sizes to refinement, achieving an effective efficiency-effectiveness balance. To enable efficient and effective decoding with a large block size, we adopt Progressive Block Size Extension, which mitigates performance degradation when scaling block sizes. Extensive experiments show that applying BACD and TCCF to TDAR-8B yields significant improvements over strong baselines such as TraDo-8B (2.26x speedup, +11.2 points on AIME24). These results mark an important step toward unlocking the potential of BDLMs for test-time scaling in complex reasoning tasks.


翻译:近期块扩散语言模型在推理任务上展现出具有竞争力的性能和强大的可扩展性。然而,现有BDLM在测试时扩展设定下的探索有限,并且在长链式思维推理中面临更严重的解码挑战,尤其是在平衡解码速度与效果方面。本文提出一个用于BDLM测试时扩展的统一框架,该框架在解码和块级生成中均引入了自适应性。在解码层面,我们提出有界自适应置信度解码,这是一种难度感知的采样策略,能够根据模型置信度动态调整去噪过程,在控制误差累积的同时加速推理。除了步骤级自适应性,我们还提出了“粗思考,细评判”这一测试时扩展范式,该范式将大块尺寸分配给探索性推理,将小块尺寸分配给精细化推理,从而实现了效率与效果的有效平衡。为了在使用大块尺寸时实现高效且有效的解码,我们采用渐进式块尺寸扩展方法,以减轻扩展块尺寸时的性能下降。大量实验表明,将BACD和TCCF应用于TDAR-8B模型,相比TraDo-8B等强基线模型取得了显著提升(速度提升2.26倍,在AIME24上得分提升+11.2分)。这些成果标志着在释放BDLM于复杂推理任务中进行测试时扩展的潜力方面迈出了重要一步。

0
下载
关闭预览

相关内容

大语言模型推理时扩展:从子问题结构视角的综述
专知会员服务
17+阅读 · 2025年11月20日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
16+阅读 · 2025年4月30日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员