思维链(Chain-of-thought, CoT)推理已成为大语言模型(LLMs)解决复杂问题的标准范式。然而,近期研究表明,在推理步数泛化(Reasoning hop generalization)场景下——即底层算法保持不变,但所需推理步数超出训练分布时——模型性能会出现剧烈下降。导致这一失效的内部机制尚不明确。 本研究对多领域的任务进行了系统性实验,发现错误并非均匀分布,而是集中在少数关键错误类型的 Token 位置上。进一步观察显示,这些 Token 级别的错误预测源于内部竞争机制(Internal competition mechanisms):某些特定的注意力头,即错误处理头(Erroneous processing heads, ep heads),通过放大错误的推理轨迹并抑制正确的轨迹,打破了表征的平衡。值得注意的是,在推理阶段移除单个 ep head 往往就能恢复正确的预测。

受此启发,我们提出了测试时推理修正(Test-time correction of reasoning)。这是一种轻量级的干预方法,能够在推理过程中动态识别并停用 ep heads。在不同任务和多种 LLM 上的广泛实验表明,该方法显著提升了推理步数的泛化能力,彰显了其有效性与应用潜力。

成为VIP会员查看完整内容
9

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
22+阅读 · 2025年6月11日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
22+阅读 · 2025年6月11日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员