Chain-of-thought (CoT) prompting is a common technique for improving the reasoning abilities of large language models (LLMs). However, extended reasoning is often unnecessary and substantially increases token usage. As such, a key question becomes how to optimally allocate compute to when reasoning is actually needed. We study this through confidence-gated CoT, where a model produces a direct answer and a confidence estimate to decide whether to invoke CoT. We present an evaluation framework together with the first systematic study of confidence signals for this decision. We evaluate four representative confidence measures and compare them with random gating and an oracle upper bound. Experiments across two model families and diverse reasoning tasks show that existing training-free confidence measures can reduce redundant reasoning. However, we also find that the utility of individual confidence measures is inconsistent across settings. Through our evaluation framework and analysis, our study provides practical guidance toward developing and evaluating models that selectively use CoT.


翻译:思维链提示是提升大语言模型推理能力的常用技术。然而,扩展推理往往并非必要,且会显著增加令牌消耗。因此,一个关键问题在于如何将计算资源最优地分配给真正需要推理的场景。我们通过置信度门控思维链对此进行研究:模型首先生成直接答案及置信度估计,据此决定是否调用思维链推理。我们提出了一个评估框架,并首次系统性地研究了用于该决策的置信度信号。我们评估了四种代表性置信度度量方法,并将其与随机门控及理论上限的预言机基准进行比较。在两个模型系列及多样化推理任务上的实验表明,现有的免训练置信度度量方法能够减少冗余推理。然而,我们也发现单一置信度度量方法的效用会因场景不同而呈现不一致性。通过本研究的评估框架与分析,我们为开发与评估选择性使用思维链的模型提供了实践指导。

0
下载
关闭预览

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
22+阅读 · 2021年4月15日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【ICML2025】通用智能体需要世界模型
专知会员服务
23+阅读 · 2025年6月4日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
22+阅读 · 2021年4月15日
相关资讯
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员