强化学习(Reinforcement Learning, RL)催化了大推理模型(Large Reasoning Models, LRMs)的兴起,将机器的推理能力提升至全新高度。在这些模型的性能引发广泛关注的同时,探究驱动这些行为的内部机理已成为同样关键的研究前沿。 本文对 LRMs 的机理理解进行了全面综述,将近年来的研究成果归纳为三个核心维度: 1. 训练动力学(Training Dynamics)

推理机制(Reasoning Mechanisms)

非预期行为(Unintended Behaviors)

通过综合这些见解,我们旨在弥合“黑盒性能”与“机理透明度”之间的鸿沟。最后,我们讨论了尚未得到充分探索的挑战,并勾勒出未来机理研究的路线图,包括对应用可解释性、改进方法论以及统一理论框架的需求。

**1 引言 (Introduction)

过去几年见证了大语言模型(LLMs)推理能力的显著进步。近期,强化学习(Reinforcement Learning, RL)已成为一种激励复杂推理的变革性范式,促使了先进大推理模型(Large Reasoning Models, LRMs)的崛起(DeepSeek-AI et al., 2025; Jaech et al., 2024)。这些模型在数学、编程和逻辑等广泛领域展现出了卓越的性能。值得注意的研究(DeepSeek-AI et al., 2025)表明,基于可验证奖励的强化学习(RL from Verifiable Rewards, RLVR)(DeepSeek-AI et al., 2025; Lambert et al., 2024)训练能够诱导出引人注目的涌现式推理行为,例如长思维链(Extended Reasoning Chains)和自省(Self-reflection)。 尽管取得了这些令人印象深刻的进展,LRMs 在很大程度上仍被视为“黑盒”。许多基础性问题尚无定论,包括:RL 的作用与监督微调(SFT)有何不同?定义 LRM 推理的结构特征是什么?驱动其独特行为的内部机制又是怎样的?此外,非预期行为(如幻觉、不忠实性及过度思考)的根源何在?这种透明度的缺失激发了学术界对机理研究(Mechanistic Research)日益浓厚的兴趣,旨在揭示促使这些模型执行复杂推理的底层过程。 本文对 LRMs 机理研究这一新兴领域进行了全面综述。从研究对象的视角出发(如图 1 所示),我们将相关工作按照面向推理的训练过程、LRM 推理行为以及 LRM 非预期行为进行组织: 1. 面向推理的训练过程 (§2): 本节探讨专门针对推理能力的训练过程背后的机制。我们首先剖析了 SFT 与 RL 的互补作用 (§2.1),并考察了 RL 中的关键训练动力学,例如“顿悟时刻(Aha Moments)”如何涌现,以及训练过程中内部表示(Internal Representations)如何演化 (§2.2)。 1. LRM 推理 (§3): 我们深入探讨了 LRM 推理底层的机制,分析了其输出结果及内部表示。本节探讨了 LRM 推理轨迹(Reasoning Traces)的一般结构特征 (§3.1)、自省等关键行为 (§3.2),以及支撑这些行为的内在机制 (§3.3)。 1. LRM 非预期行为 (§4): 我们进一步审视了 LRMs 的副作用,探索了与典型非预期行为相关的行为模式和内部机制,包括幻觉 (§4.1)、不忠实的思维链(CoT) (§4.2)、过度思考 (§4.3) 以及安全性问题 (§4.4)。

贡献与独特性。 本综述的独特之处在于专门聚焦于对 LRMs 的机理理解,这一主题在现有文献中受到的关注相对有限。虽然已有一些综述对大推理模型和 RL 技术进行了概括性回顾(Zhang et al., 2025c; Li et al., 2025f; Zhang et al., 2025h; Xu et al., 2025),但并未深入探讨驱动 LRM 推理的底层机制。特别地,Chen et al. (2025b) 探讨了长 CoT 推理,但主要关注 CoT 输出的行为特征,极少涉及内部机制。此外,虽有综述研究缓解过度思考的方法(Feng et al., 2025; Sui et al., 2025),但其重点在于高效推理技术,而非过度思考背后的机理。据我们所知,本文是首篇全面综述 LRM 机理的工作,对训练过程、推理行为及非预期结果提供了更为详尽且深度的分析。

成为VIP会员查看完整内容
17

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关VIP内容
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员