Large reasoning models rely on long chain-of-thought generation to solve complex problems, but extended reasoning often incurs substantial computational cost and can even degrade performance due to overthinking. A key challenge is determining when the model should stop reasoning and produce the final answer. In this work, we study the confidence of intermediate answers during reasoning and observe two characteristic behaviors: correct reasoning trajectories often reach high-confidence answers early, while incorrect rollouts tend to produce long, unproductive reasoning traces and exhibit less reliable confidence dynamics. Motivated by these observations, we propose CoDE-Stop (Confidence Dynamics Early Stop), an early stopping method that leverages the dynamics of intermediate answer confidence to decide when to terminate reasoning, requiring no additional training and easily integrating into existing models. We evaluate CoDE-Stop on diverse reasoning and science benchmarks across multiple models. Compared to prior early stopping methods, it achieves a more favorable accuracy-compute tradeoff and reduces total token usage by 25-50% compared to standard full-length reasoning. In addition, we provide analyses of confidence dynamics during reasoning, offering insights into how confidence changes in both correct and incorrect trajectories.


翻译:大型推理模型依赖长链式思维生成来解决复杂问题,但扩展推理过程通常带来巨大的计算开销,甚至可能因过度思考而导致性能下降。关键挑战在于如何确定模型何时应停止推理并输出最终答案。本研究聚焦推理过程中中间答案置信度的变化规律,观察到两类特征性行为:正确推理轨迹往往在早期即达到高置信度答案,而错误推理轨迹则倾向于产生冗长无效的推理链路,且置信度动态可靠性较低。基于上述观察,我们提出CoDE-Stop(置信度动态早停法),该方法利用中间答案置信度的动态变化决定推理终止时机,无需额外训练即可轻松集成至现有模型。我们在多个模型的推理与科学基准测试上评估了CoDE-Stop。与现有早停方法相比,该方法实现了更优的精度-计算量权衡,相较于标准全长推理可将总令牌使用量降低25-50%。此外,我们提供了推理过程中置信度动态的分析,揭示了正确与错误轨迹中置信度的变化规律。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
【斯坦福博士论文】大模型时代的概率推理,137页pdf
专知会员服务
70+阅读 · 2024年3月31日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
【斯坦福博士论文】大模型时代的概率推理,137页pdf
专知会员服务
70+阅读 · 2024年3月31日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
相关资讯
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员