While Test-Time Scaling (TTS) has proven effective in improving the reasoning ability of large language models (LLMs), low diversity in model outputs often becomes a bottleneck; this is partly caused by the common "one problem, one solution" (1P1S) training practice, which provides a single canonical answer and can push models toward a narrow set of reasoning paths. This homogenization not only limits sampling effectiveness but also restricts the exploration space for subsequent Reinforcement Learning (RL) stages. To address this, we propose a "one problem, multiple solutions" (1PNS) training paradigm that exposes the model to a variety of valid reasoning trajectories and thus increases inference diversity. A core challenge for 1PNS is reliably measuring semantic differences between multi-step chains of thought, so we introduce Reasoning Path Divergence (RPD), a step-level metric that aligns and scores Long Chain-of-Thought solutions to capture differences in intermediate reasoning. Using RPD, we curate maximally diverse solution sets per problem and fine-tune Qwen3-4B-Base. Experiments show that RPD-selected training yields more varied outputs and higher pass@k, with an average +2.80% gain in pass@16 over a strong 1P1S baseline and a +4.99% gain on AIME24, demonstrating that 1PNS further amplifies the effectiveness of TTS. Our code is available at https://github.com/fengjujf/Reasoning-Path-Divergence .


翻译:尽管测试时扩展(TTS)已被证明能有效提升大语言模型(LLMs)的推理能力,但模型输出的低多样性常成为瓶颈;这在一定程度上源于常见的“一题一解”(1P1S)训练范式,该范式仅提供单一标准答案,可能将模型推向狭窄的推理路径集合。这种同质化不仅限制了采样的有效性,也制约了后续强化学习(RL)阶段的探索空间。为解决此问题,我们提出“一题多解”(1PNS)训练范式,使模型接触多种有效推理轨迹,从而提升推理多样性。1PNS的核心挑战在于可靠地度量多步思维链之间的语义差异,为此我们引入推理路径发散性(RPD),这是一种步骤级度量方法,通过对齐和评分长思维链解来捕捉中间推理过程的差异。利用RPD,我们为每个问题筛选出最大多样性的解集,并对Qwen3-4B-Base进行微调。实验表明,基于RPD筛选的训练能产生更多样化的输出和更高的pass@k,在pass@16上平均较强大的1P1S基线提升+2.80%,在AIME24上提升+4.99%,证明1PNS进一步放大了TTS的有效性。我们的代码发布于 https://github.com/fengjujf/Reasoning-Path-Divergence 。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员