摘要: 现代基于语言模型的人工智能系统展现出了卓越的性能,然而,其能力在三个关键维度上仍受到人类创造者的根本性限制。首先,尽管模型权重可通过微调(fine-tuning)进行更新,但在预训练(pre-training)阶段之后,从规模较小的专业语料库中获取新知识的效率依然极低。其次,此类系统的训练高度依赖于历史上有限的人类生成数据。第三,现有的 AI 模型训练管线仍受限于人类研究人员所能发现并探索的算法范畴。 本论文为攻克上述固有局限迈出了初步尝试,通过三个章节的研究,旨在打破这些依赖关系,进而构建持续自我改进的人工智能(continually self-improving AI)。 * 针对知识获取中的数据效率瓶颈:我们提出了一种合成数据方法,将有限的语料库进行多样化扩展并增强为丰富的知识表示,使模型能够有效地利用稀缺的原始素材完成参数更新。 * 针对人类数据依赖问题:研究表明,在给定固定规模的人类数据前提下,模型可通过自生成合成数据来**自举(bootstrap)**其基础预训练能力,且无需从任何现成的指令微调语言模型中进行蒸馏(distillation)。 * 针对人类工程化训练范式的局限:我们证明,通过在测试时(test time)对算法空间进行大规模搜索,AI 能够探索比人类研究人员手动尝试更为广阔的学习算法配置空间。

1. 引言 (Introduction)

**1.1 定义持续自我改进的 AI

简而言之:**持续自我改进的人工智能(continually self-improving AI)**是指一旦被创建,便能自主且持续地提升自身性能,其改进能力超越人类创造者的系统。我们设定了两个假设,将此定义限定在本论文所研究的 AI 系统范畴内: * (A1) 该 AI 系统基于一个或多个神经网络,因此其知识被编码在一组定义明确的参数权重(parametric weights)中。 * (A2) 存在一个资源密集型的预训练阶段用以创建系统,即: $$\text{ai_system} = \text{learning_algorithm}(\text{training_signal}) \quad (1.1)$$其中,$\text{training_signal}$ 指代人类知识(如互联网文本),$\text{learning_algorithm}$ 涵盖架构(如 Transformer)和优化器(如梯度下降),而 $\text{ai_system}$ 则是生成的模型。

这两个假设涵盖了当前的语言模型范式,但也并不排除非 Transformer 架构或非文本的训练信号。在上述假设基础上,我们定义持续自我改进的 AI 需满足以下三个特性: * (P1) 在预训练阶段之后,系统能够持续获取新知识并融入参数权重,且不会发生灾难性遗忘(catastrophic forgetting)。 * (P2) 系统能够生成自身的训练信号,且从这些**自生成信号(self-generated signals)**中学习所获得的改进,超越了现有的人类生成信号所能提供的上限。 * (P3) 系统能够自主决定使用何种学习算法(learning algorithm)来从其训练信号中学习。

这三个特性分别对应本论文的三个章节: * 第 2 章 (特性 P1):通过合成小型语料库的多样化表示进行持续预训练,改进模型所掌握的知识。 * 第 3 章 (特性 P2):利用文档间的相关性来强化预训练本身,提升系统的基础预训练能力。 * 第 4 章 (特性 P3):通过将**测试时搜索(test-time search)**从 Token 级别扩展到思想(Idea)级别,改进模型的训练过程。


**1.2 持续知识获取 (Continual Knowledge Acquisition)

我们首先探讨特性 (P1):预训练后的语言模型如何持续从小型专业语料库中学习?这是一个数据受限的问题。诸如私有数据库、专业科学领域等利基知识(Niche knowledge)缺乏标准预训练所需的互联网多样性。 在第 2 章中,我们通过**合成持续预训练(synthetic continued pretraining)**解决了数据效率与灾难性遗忘两大挑战。从宏观上看,我们利用一种受知识图谱启发的增强算法 EntiGraph,将小型语料库转换为大规模、多样化的合成语料库,并在扩展数据上进行持续预训练,同时混入比例原始预训练数据以防止遗忘。实验表明,该方法能使模型有效习得原始文档知识。


**1.3 自举预训练能力 (Bootstrapping Pretraining Capabilities)

随着 OpenAI o1 的发布,推理模型成为焦点。一个自然的问题是:诱导预训练模型的推理能力需要多少数据?在第 3 章中,我们证明仅需 1,000 个精心策划的推理链(reasoning traces)样本便足以构建极具竞争力的推理模型。这表明推理能力已潜藏于预训练权重中,微调只是将其诱导(elicit)出来。 这引出了对特性 (P2) 的探讨:在无外部强大教师、无新环境信息的前提下,模型能否通过固定数据集生成合成数据来训练出更好的模型?我们提出了合成自举预训练(Synthetic Bootstrapped Pretraining, SBP)。SBP 训练一个条件数据合成器,从现有文档中生成新的训练文档(例如从学术论文合成代码教程)。实验证明,SBP 在算力对齐的比较中提升了预训练困惑度(perplexity),填补了与拥有无限唯一数据的“神谕(oracle)”之间多达 60% 的差距。


**1.4 迈向 AI 设计的 AI:通过测试时搜索实现

AI 研究本身或许是 AI 能够交付显著进展的领域。在第 4 章中,我们构建了一个自动化 AI 研究系统,并在思想级别应用测试时搜索:生成研究设想、自动执行实验,并将结果反馈以指导下一轮搜索。 另一项观察强化了这一方向:即使是简单的干预——如通过抑制“思考结束标记”来强制延长推理(我们称之为预算强制,budget forcing)——也能提高准确率。如果 Token 级别的暴力思考已有帮助,那么在思想级别系统性地扩展搜索(即生成研究想法、执行并学习结果)应当能带来进一步提升。这代表了另一种自我改进:并非改进训练数据或模型能力,而是改进训练算法本身

成为VIP会员查看完整内容
1

相关内容

持续学习(continuallearning,CL) 是 模 拟 大 脑 学 习 的 过 程,按 照 一 定 的 顺 序 对 连 续 非 独 立 同 分 布 的 (independentlyandidenticallydistributed,IID)流数据进行学习,进而根据任务的执行结果对模型进行 增量式更新.持续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极 大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义
微信扫码咨询专知VIP会员