近年来,大语言模型(LLMs)取得了飞速发展,已从几年前的对话助手演变为能够执行多步推理、生成并执行代码以及通过软件接口进行交互的通用智能体系统。随着这些能力的日趋成熟,核心研究对象已从孤立的模型本身,转向了更为广泛的智能体系统——这是一种将大语言模型与感知、记忆、推理及工具使用组件相结合,旨在长周期内追求特定目标的系统。因此,制约智能体性能的关键因素正越来越多地源于运行层面,而非单纯的模型内部。例如:在单条轨迹(Trajectory)中能够处理多少上下文、算力如何在并行与串行推理之间进行分配,以及智能体如何可靠地评判自身输出的正确性。这些制约因素表明,智能体系统必须沿着三个互补的维度进行扩展:时序扩展、并行扩展与递归扩展。此外,高效的基础底层作为这三个维度的基石,决定了每增加单位计算量的边际成本。
在本篇论文中,我们围绕这四个方向开发了相关技术:高效的模型基础、时序扩展、并行扩展以及递归扩展。 * 在高效模型基础方面,我们引入了 Q-Diffusion(一种训练后量化框架),该框架无需重新训练即可将大型扩散模型的权重压制至 4 位(4-bit);同时,我们提出了 SparseLoRA,通过轻量级的上下文稀疏度估计器在运行时动态选择每 Token 的激活子网络,从而加速大语言模型的微调。 * 在时序扩展方面,我们提出了 LLoCO,该方法将离线上下文压缩与参数高效微调相结合,仅需在推理时使用约 $\frac{1}{30}$ (30× fewer)的 Token 量,即可将原本 4k 窗口的 LLaMA 模型的有效上下文窗口扩展至 128k Tokens;此外,我们展示了 STORM,这是一种具备高 Token 效率的长视频理解模型,它通过一个基于 Mamba 的时序投影器,将时空信息整合到压缩的视觉 Token 中。 * 在并行扩展方面,我们开发了自适应并行推理(Adaptive Parallel Reasoning),通过监督训练和端到端强化学习,使单个大语言模型能够通过“父子线程(Parent–child threading)机制”,在并行和串行线程之间动态分配推理计算。 * 在递归扩展方面,我们提出了 $V1$ 框架,该框架通过训练单个模型来同时生成候选方案并对方案对(Pairs of solutions)进行评判,实现了生成与自我验证的统一。实验表明,这种联合训练能够将测试时计算(Test-time compute)转化为可靠的能力提升。
综上所述,这些研究成果共同勾勒出了一条迈向大语言模型智能体系统的发展路径。这些系统不仅在上下文、计算和效率上具备可扩展性,而且具备自我演进(Self-improving)能力,能够将自身的评判转化为训练信号。