Recent progress in large language models (LLMs) has focused on test-time scaling to improve reasoning via increased inference computation, but often at the cost of efficiency. We revisit test-time behavior and uncover a simple yet underexplored phenomenon: reasoning uncertainty is highly localized-only a small subset of high-entropy tokens dominantly affects output correctness. Motivated by this, we propose Minimal Test-Time Intervention (MTI), a training-free framework that enhances reasoning accuracy and stability with minimal overhead. MTI includes: (i) Selective CFG intervention, applying classifier-free guidance only at uncertain positions; and (ii) Lightweight negative-prompt guidance, reusing the main model's KV cache to approximate unconditional decoding efficiently. MTI yields consistent gains across general, coding, and STEM tasks-e.g., +9.28% average improvement on six benchmarks for DeepSeek-R1-7B and +11.25% on AIME2024 using Ling-mini-2.0-while remaining highly efficient.


翻译:大语言模型的最新进展聚焦于测试时扩展(test-time scaling),通过增加推理计算来提升推理能力,但往往以牺牲效率为代价。我们重新审视测试时行为,发现一个简单却未被充分探索的现象:推理不确定性具有高度局部性——仅少数高熵词元会显著影响输出正确性。受此启发,我们提出最小测试时干预(Minimal Test-Time Intervention, MTI),这是一个无需训练的框架,能以最小开销增强推理准确性和稳定性。MTI包含:(i)选择性无分类器引导(Selective CFG intervention),仅在不确定位置应用无分类器引导;(ii)轻量级负提示引导(Lightweight negative-prompt guidance),重用主模型的KV缓存来近似高效解码无条件分布。MTI在通用任务、编码任务和STEM任务上均取得一致提升——例如在六个基准测试中使DeepSeek-R1-7B平均提升9.28%,在AIME2024上使用Ling-mini-2.0实现11.25%的改进——同时保持极高效率。

0
下载
关闭预览

相关内容

大语言模型推理时扩展:从子问题结构视角的综述
专知会员服务
17+阅读 · 2025年11月20日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
23+阅读 · 2025年6月11日
增强大模型智能:数学推理能力的提升策略与实践
专知会员服务
25+阅读 · 2024年8月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 31分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 48分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员