【斯坦福博士论文】持续自我改进的人工智能

摘要： 现代基于语言模型的人工智能系统展现出了卓越的性能，然而，其能力在三个关键维度上仍受到人类创造者的根本性限制。首先，尽管模型权重可通过微调（fine-tuning）进行更新，但在预训练（pre-training）阶段之后，从规模较小的专业语料库中获取新知识的效率依然极低。其次，此类系统的训练高度依赖于历史上有限的人类生成数据。第三，现有的 AI 模型训练管线仍受限于人类研究人员所能发现并探索的算法范畴。本论文为攻克上述固有局限迈出了初步尝试，通过三个章节的研究，旨在打破这些依赖关系，进而构建持续自我改进的人工智能（continually self-improving AI）。 * 针对知识获取中的数据效率瓶颈：我们提出了一种合成数据方法，将有限的语料库进行多样化扩展并增强为丰富的知识表示，使模型能够有效地利用稀缺的原始素材完成参数更新。 * 针对人类数据依赖问题：研究表明，在给定固定规模的人类数据前提下，模型可通过自生成合成数据来**自举（bootstrap）**其基础预训练能力，且无需从任何现成的指令微调语言模型中进行蒸馏（distillation）。 * 针对人类工程化训练范式的局限：我们证明，通过在测试时（test time）对算法空间进行大规模搜索，AI 能够探索比人类研究人员手动尝试更为广阔的学习算法配置空间。

1. 引言 (Introduction)

**1.1 定义持续自我改进的 AI

简而言之：**持续自我改进的人工智能（continually self-improving AI）**是指一旦被创建，便能自主且持续地提升自身性能，其改进能力超越人类创造者的系统。我们设定了两个假设，将此定义限定在本论文所研究的 AI 系统范畴内： * (A1) 该 AI 系统基于一个或多个神经网络，因此其知识被编码在一组定义明确的参数权重（parametric weights）中。 * (A2) 存在一个资源密集型的预训练阶段用以创建系统，即： $$\text{ai_system} = \text{learning_algorithm}(\text{training_signal}) \quad (1.1)$$其中，$\text{training_signal}$ 指代人类知识（如互联网文本），$\text{learning_algorithm}$ 涵盖架构（如 Transformer）和优化器（如梯度下降），而 $\text{ai_system}$ 则是生成的模型。

这两个假设涵盖了当前的语言模型范式，但也并不排除非 Transformer 架构或非文本的训练信号。在上述假设基础上，我们定义持续自我改进的 AI 需满足以下三个特性： * (P1) 在预训练阶段之后，系统能够持续获取新知识并融入参数权重，且不会发生灾难性遗忘（catastrophic forgetting）。 * (P2) 系统能够生成自身的训练信号，且从这些**自生成信号（self-generated signals）**中学习所获得的改进，超越了现有的人类生成信号所能提供的上限。 * (P3) 系统能够自主决定使用何种学习算法（learning algorithm）来从其训练信号中学习。

这三个特性分别对应本论文的三个章节： * 第 2 章 (特性 P1)：通过合成小型语料库的多样化表示进行持续预训练，改进模型所掌握的知识。 * 第 3 章 (特性 P2)：利用文档间的相关性来强化预训练本身，提升系统的基础预训练能力。 * 第 4 章 (特性 P3)：通过将**测试时搜索（test-time search）**从 Token 级别扩展到思想（Idea）级别，改进模型的训练过程。

**1.2 持续知识获取 (Continual Knowledge Acquisition)

我们首先探讨特性 (P1)：预训练后的语言模型如何持续从小型专业语料库中学习？这是一个数据受限的问题。诸如私有数据库、专业科学领域等利基知识（Niche knowledge）缺乏标准预训练所需的互联网多样性。在第 2 章中，我们通过**合成持续预训练（synthetic continued pretraining）**解决了数据效率与灾难性遗忘两大挑战。从宏观上看，我们利用一种受知识图谱启发的增强算法 EntiGraph，将小型语料库转换为大规模、多样化的合成语料库，并在扩展数据上进行持续预训练，同时混入比例原始预训练数据以防止遗忘。实验表明，该方法能使模型有效习得原始文档知识。

**1.3 自举预训练能力 (Bootstrapping Pretraining Capabilities)

随着 OpenAI o1 的发布，推理模型成为焦点。一个自然的问题是：诱导预训练模型的推理能力需要多少数据？在第 3 章中，我们证明仅需 1,000 个精心策划的推理链（reasoning traces）样本便足以构建极具竞争力的推理模型。这表明推理能力已潜藏于预训练权重中，微调只是将其诱导（elicit）出来。这引出了对特性 (P2) 的探讨：在无外部强大教师、无新环境信息的前提下，模型能否通过固定数据集生成合成数据来训练出更好的模型？我们提出了合成自举预训练（Synthetic Bootstrapped Pretraining, SBP）。SBP 训练一个条件数据合成器，从现有文档中生成新的训练文档（例如从学术论文合成代码教程）。实验证明，SBP 在算力对齐的比较中提升了预训练困惑度（perplexity），填补了与拥有无限唯一数据的“神谕（oracle）”之间多达 60% 的差距。

**1.4 迈向 AI 设计的 AI：通过测试时搜索实现

AI 研究本身或许是 AI 能够交付显著进展的领域。在第 4 章中，我们构建了一个自动化 AI 研究系统，并在思想级别应用测试时搜索：生成研究设想、自动执行实验，并将结果反馈以指导下一轮搜索。另一项观察强化了这一方向：即使是简单的干预——如通过抑制“思考结束标记”来强制延长推理（我们称之为预算强制，budget forcing）——也能提高准确率。如果 Token 级别的暴力思考已有帮助，那么在思想级别系统性地扩展搜索（即生成研究想法、执行并学习结果）应当能带来进一步提升。这代表了另一种自我改进：并非改进训练数据或模型能力，而是改进训练算法本身。