【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

近年来，大语言模型（LLMs）取得了飞速发展，已从几年前的对话助手演变为能够执行多步推理、生成并执行代码以及通过软件接口进行交互的通用智能体系统。随着这些能力的日趋成熟，核心研究对象已从孤立的模型本身，转向了更为广泛的智能体系统——这是一种将大语言模型与感知、记忆、推理及工具使用组件相结合，旨在长周期内追求特定目标的系统。因此，制约智能体性能的关键因素正越来越多地源于运行层面，而非单纯的模型内部。例如：在单条轨迹（Trajectory）中能够处理多少上下文、算力如何在并行与串行推理之间进行分配，以及智能体如何可靠地评判自身输出的正确性。这些制约因素表明，智能体系统必须沿着三个互补的维度进行扩展：时序扩展、并行扩展与递归扩展。此外，高效的基础底层作为这三个维度的基石，决定了每增加单位计算量的边际成本。

在本篇论文中，我们围绕这四个方向开发了相关技术：高效的模型基础、时序扩展、并行扩展以及递归扩展。 * 在高效模型基础方面，我们引入了 Q-Diffusion（一种训练后量化框架），该框架无需重新训练即可将大型扩散模型的权重压制至 4 位（4-bit）；同时，我们提出了 SparseLoRA，通过轻量级的上下文稀疏度估计器在运行时动态选择每 Token 的激活子网络，从而加速大语言模型的微调。 * 在时序扩展方面，我们提出了 LLoCO，该方法将离线上下文压缩与参数高效微调相结合，仅需在推理时使用约 $\frac{1}{30}$ （30× fewer）的 Token 量，即可将原本 4k 窗口的 LLaMA 模型的有效上下文窗口扩展至 128k Tokens；此外，我们展示了 STORM，这是一种具备高 Token 效率的长视频理解模型，它通过一个基于 Mamba 的时序投影器，将时空信息整合到压缩的视觉 Token 中。 * 在并行扩展方面，我们开发了自适应并行推理（Adaptive Parallel Reasoning），通过监督训练和端到端强化学习，使单个大语言模型能够通过“父子线程（Parent–child threading）机制”，在并行和串行线程之间动态分配推理计算。 * 在递归扩展方面，我们提出了 $V1$ 框架，该框架通过训练单个模型来同时生成候选方案并对方案对（Pairs of solutions）进行评判，实现了生成与自我验证的统一。实验表明，这种联合训练能够将测试时计算（Test-time compute）转化为可靠的能力提升。

综上所述，这些研究成果共同勾勒出了一条迈向大语言模型智能体系统的发展路径。这些系统不仅在上下文、计算和效率上具备可扩展性，而且具备自我演进（Self-improving）能力，能够将自身的评判转化为训练信号。

成为VIP会员查看完整内容

相关内容

博士论文

关注 131

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

专知会员服务

29+阅读 · 2025年9月2日

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

35+阅读 · 2025年5月16日