Large reasoning models (LRMs) achieve strong performance by producing long chains of thought, but their inference costs are high and often generate redundant reasoning. Small language models (SLMs) are far more efficient, yet struggle on multi-step reasoning tasks. A natural idea is to let a large model guide a small one at inference time as a mentor, yet existing collaboration methods often promote imitation, resulting in verbose reasoning without consistent error correction. We propose MentorCollab, an inference-time collaboration method in which an LRM selectively and sparsely guides an SLM, rather than taking over generation. At randomly sampled token positions, we probe for divergences between the two models and use a lightweight verifier to decide whether the SLM should follow a short lookahead segment from its mentor or continue on its own. Across 15 SLM--LRM pairs and 3 domains (math reasoning, general knowledge, and commonsense reasoning), our method improves performance in 12 settings, with average gains of 3.0% and up to 8.0%, while adopting only having 18.4% tokens generated by the expensive mentor model on average. We find that short segments and selective probing are sufficient for effective collaboration. Our results show that selective inference-time guidance restores large-model reasoning ability without substantial inference overhead.


翻译:大型推理模型(LRM)通过生成长链思维实现强大性能,但其推理成本高昂且常产生冗余推理。小型语言模型(SLM)效率显著更高,却在多步推理任务上表现欠佳。一个自然的思路是让大型模型在推理时作为导师引导小型模型,然而现有协作方法往往鼓励模仿,导致冗长推理且无法持续纠正错误。我们提出MentorCollab,一种推理时协作方法,其中LRM选择性地稀疏引导SLM,而非接管生成过程。在随机采样的标记位置,我们探测两个模型间的分歧,并利用轻量验证器决定SLM应遵循其导师的短前瞻片段还是自主继续生成。在15组SLM-LRM配对及3个领域(数学推理、通用知识和常识推理)的实验中,我们的方法在12种设定下提升了性能,平均增益达3.0%,最高达8.0%,同时平均仅需昂贵导师模型生成18.4%的标记。研究发现短片段与选择性探测足以实现有效协作。结果表明,选择性推理时引导能在不引入显著推理开销的前提下恢复大模型的推理能力。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
【普林斯顿博士论文】大型模型的高效推理
专知会员服务
22+阅读 · 2025年8月10日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
21+阅读 · 2025年5月13日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
【普林斯顿博士论文】大型模型的高效推理
专知会员服务
22+阅读 · 2025年8月10日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
大型语言模型推理引擎的综述:优化与效率的视角
专知会员服务
21+阅读 · 2025年5月13日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员