Do reasoning models have "Aha!" moments? Prior work suggests that models like DeepSeek-R1-Zero undergo sudden mid-trace realizations that lead to accurate outputs, implying an intrinsic capacity for self-correction. Yet, it remains unclear whether such intrinsic shifts in reasoning strategy actually improve performance. Here, we study mid-reasoning shifts and instrument training runs to detect them. Our analysis spans 1M+ reasoning traces, hundreds of training checkpoints, three reasoning domains, and multiple decoding temperatures and model architectures. We find that reasoning shifts are rare, do not become more frequent with training, and seldom improve accuracy, indicating that they do not correspond to prior perceptions of model insight. However, their effect varies with model uncertainty. Building on this finding, we show that artificially triggering extrinsic shifts under high entropy reliably improves accuracy. Our results show that mid-reasoning shifts are symptoms of unstable inference behavior rather than an intrinsic mechanism for self-correction.


翻译:推理模型是否具有"顿悟"时刻?先前研究表明,DeepSeek-R1-Zero等模型会在推理过程中经历突然的中途认知转变,从而产生准确输出,这暗示了其内在的自我校正能力。然而,这种推理策略的内在转变是否真正提升了性能仍不明确。本研究通过分析推理中途的转变并设计训练过程来检测这些现象。我们的分析涵盖超过100万条推理轨迹、数百个训练检查点、三个推理领域,以及多种解码温度和模型架构。研究发现:推理转变现象较为罕见,其出现频率不会随训练增加,且很少能提升准确率,这表明它们并不符合先前对模型洞见的认知。然而,这些转变的效果会随模型不确定性的变化而改变。基于此发现,我们证明在高熵条件下人为触发外部转变能够可靠地提升准确率。研究结果表明,推理中途的转变是不稳定推理行为的表征,而非内在的自我校正机制。

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2021年6月11日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员