Agentic RL：框架、实践与长程智能体训练

导读

过去一年，强化学习重新成为大模型研究的核心关键词，但“用 RL 提升推理”只是故事的上半场。真正复杂的 AI 系统并不是只在一个 prompt 里生成最终答案，而是要在长时间跨度内规划、调用工具、接收环境反馈、修正策略并持续推进任务。Cameron R. Wolfe 在这篇《Agentic RL: Frameworks and Best Practices》中系统梳理了这一方向：当 LLM 从静态问答模型变成能与环境交互的智能体，RL 训练也必须从单轮文本采样升级为多轮轨迹优化、可扩展环境执行、异步 rollout 和稳定性控制。这篇文章的价值不在于提出一个单一算法，而在于把近期 Agentic RL 的关键工程经验串起来：ToRL 说明工具集成推理可以通过 outcome reward 自主学会使用代码；AgentGym-RL 展示了开放式环境接口和课程式长程训练；Agent-R1 强调 step-level trajectory 对多轮训练的重要性；AgentRL 把问题推进到异步、多任务、大规模环境部署；AutoForge 讨论如何自动合成可验证环境；RAGEN 则从训练动力学角度揭示 echo trap、template collapse 等新型失稳模式。对正在构建智能体训练系统的人来说，这篇文章相当于一份“从算法到系统”的实践地图。

图1：Agentic RL 文章主图，综合展示多轮轨迹、环境服务器、结构化轨迹管理与合成环境等关键模块。

1. 背景：为什么 Agentic RL 变得重要

早期 LLM 强化学习通常围绕静态任务展开：给定一个提示，模型生成一个回答，然后根据最终正确性或偏好信号更新策略。这种单轮范式适合数学题、代码题或一般推理任务，但越来越难覆盖真实智能体系统的行为形态。一个实用智能体往往需要跨越多个步骤：先理解目标，再查询工具、读取网页、执行代码、修改文件、观察结果，必要时重新规划，直到任务完成。因此，Agentic RL 关注的核心问题是：如何训练一个模型在动态环境中长期行动，而不是只训练它在一次生成中“说出正确答案”。这使 RL 的训练对象从“单段文本”变成了“包含状态、动作、工具调用、环境反馈与奖励的多轮轨迹”。训练系统也随之复杂化：每个 rollout 可能持续很久，不同任务的交互步数差异巨大，外部环境需要隔离和并行部署，奖励信号可能既有终局奖励也有过程奖励，训练还容易出现探索衰减和策略坍缩。文章将 Agentic RL 视为两个问题的交叉：一方面是算法问题，需要设计适合多轮轨迹的优化目标、优势估计和稳定性机制；另一方面是系统问题，需要能够大规模、低延迟、可隔离地运行环境，并把异步生成的轨迹及时送入训练。

2. Agent 基础：从 LLM 到智能体闭环

作者对 agent 的定义很务实：agent 不是某种神秘的新模型，而是一个运行在智能体闭环中的 LLM。它依靠自身推理能力和外部工具，在环境中逐步解决复杂问题。一个典型 agent 至少包含四类组件。第一是 LLM backbone。底座模型负责理解指令、生成推理过程、决定是否调用工具，并把环境反馈整合进下一步行动。对于长程任务，推理模型尤其重要，因为它需要任务分解、自我检查、错误恢复和中途重规划能力。第二是 instructions。指令不仅告诉模型要完成什么任务，也规定了工具格式、领域约束、求解策略和停止条件。好的指令可以显著缩小探索空间，让模型在 RL 早期更容易产生可执行、有反馈的行为。第三是 tools。工具把模型连接到外部世界，可以是 API、命令行、代码解释器、浏览器、数据库、MCP server 或其他环境接口。工具调用通常嵌入在模型生成的 token 流中：一旦模型输出特定调用格式，生成暂停，系统解析并执行工具，再把观察结果写回上下文。第四是 environment。环境不只是工具本身，还包括外部状态、执行结果、奖励函数和交互规则。对于代码智能体，环境可能是一个文件系统、代码库和测试器；对于网页导航，环境可能是浏览器状态；对于购物或数据库任务，环境则包含可变的数据记录和操作约束。

图2：智能体闭环：模型生成动作，工具作用于环境，环境反馈再进入上下文，直到满足终止条件。在这个闭环中，harness 的设计非常关键。它负责控制上下文如何组织、工具输出如何裁剪、历史信息如何保留或摘要、长期记忆如何写入和读取。对长程 agent 来说，上下文管理并不是附属工程，而是决定训练轨迹是否可学、推理过程是否稳定的重要组成部分。

3. Agentic RL 的形式化：从单轮 MDP 到多轮环境交互

强化学习训练通常在两个操作之间交替：一是 rollout，即用当前策略针对一批 prompt 采样多个完成结果，并计算奖励；二是 policy update，即基于采样轨迹、log probability 和奖励信号更新模型。常见优化器包括 GRPO、PPO 和 REINFORCE。文章指出，GRPO 在当前大模型 RL 中非常常见，但长程任务中 PPO 也重新受到重视，因为 critic-based PPO 可以更好处理长度变化明显、轨迹结构复杂的 rollout。

图3：RL 训练的核心流程：从当前策略采样 rollout，再利用奖励和目标函数更新策略。标准 LLM RL 可以近似看作单轮 MDP：状态是当前 token 上下文，动作是下一个 token，转移是把 token 追加到序列中，奖励通常在最终答案处给出。Agentic RL 则更复杂。它的状态包含模型可见上下文和外部环境状态；动作不再只是 token，而可能是一段推理文本、一次工具调用或一个环境可执行操作；转移函数既更新文本上下文，也更新环境状态；奖励既可以来自最终任务成败，也可以来自中间过程。

图4：多轮 Agentic RL 的 MDP 形式化。状态同时包含指令与环境状态，动作可能包含工具调用，轨迹由动作、观察、奖励和状态转移共同构成。这带来一个直接后果：rollout 的成本和方差显著上升。一个 agent rollout 可能要启动独立容器、执行代码、访问浏览器、修改数据库，并在多个回合后才得到结果。不同轨迹的耗时差异也很大，短轨迹可能几秒完成，长轨迹可能持续数分钟。为了避免互相污染，每条轨迹通常需要隔离的执行环境；为了提升吞吐量，训练系统又必须同时管理大量并发环境。代码智能体是典型例子。它不仅生成代码，还要在独立环境中执行、读取报错、修改文件并重新测试。环境隔离可以避免不同 rollout 修改同一文件系统或数据库造成干扰；容器和 Kubernetes 这类基础设施则用于把 rollout 扩展到数百甚至数千并发。文章提到，R2E-Gym 在规模扩大后需要引入 Kubernetes，因为单机 Docker API 在大量容器启动、执行和销毁时会成为瓶颈。

图5：代码智能体中的环境与工具：模型通过工具操作代码库、运行测试、接收反馈，并据此继续行动。

4. 代表框架与技术路线

4.1 ToRL：让模型通过 RL 学会工具集成推理

ToRL 关注 tool-integrated reasoning，即让 LLM 在自然语言推理过程中穿插代码执行。数学和符号推理常常需要精确计算，而这些能力可以委托给代码解释器。传统做法通常依赖强模型生成工具使用轨迹，再用 SFT 训练学生模型；ToRL 则尝试更直接的 RL-Zero 路线：从未经过额外 post-training 的预训练模型出发，让模型通过奖励驱动探索学会何时写代码、如何执行代码、如何利用执行结果修正答案。在 ToRL 中，模型生成的文本会包含 Python 代码块。当模型输出特定的 output 标签时，系统暂停生成、执行代码、将输出追加回上下文，然后继续生成。训练环境会设置最大工具调用次数，错误信息也会作为观察返回给模型，但通常会做截断，以免冗长报错污染上下文。代码执行输出不参与 RL loss，真正优化的是模型自己生成的 token。 ToRL 的奖励设计相当简洁：答案正确给正奖励，错误给负奖励，非可执行代码可额外惩罚。一个有意思的发现是，显式的代码错误惩罚未必有益。实验中，单纯 outcome reward 已经能够让模型学会更有效地使用代码；过强的错误惩罚反而可能让模型变得保守，不敢探索可能有用的代码调用。

图6：ToRL 中是否加入代码错误惩罚的对比。结果显示，简单 outcome reward 往往已经足够，额外惩罚可能抑制探索。 ToRL 的启示是：在工具使用任务中，不一定要先用大量专家轨迹规定模型“应该怎么用工具”。只要环境可执行、反馈足够明确、奖励可验证，模型可以通过 RL 自主发现工具调用策略。当然，这一结论更适用于可验证任务，例如数学、代码和部分检索型任务；开放式任务仍需要更复杂的评估和奖励设计。

4.2 AgentGym-RL：面向长程决策任务的模块化训练框架

AgentGym-RL 把重点放在基础设施上。它将智能体训练拆成 Environment、Agent 和 Training 三个组件：Environment 是可交互任务或场景，Agent 是由 LLM 驱动的智能体闭环，Training 则是用于优化行为的 RL 管线。环境覆盖网页导航、具身任务、科学实验等不同类型，但都通过统一接口暴露给训练系统。这种设计的关键是环境服务化。每个环境可以作为独立服务运行，通过统一 HTTP 接口与 rollout worker 通信。训练时，系统为每条轨迹分配一个独立环境，agent 在其中多轮交互，直到任务成功或达到交互预算。完整的消息、动作、观察和奖励被记录为轨迹，再送入 RL 更新。 AgentGym-RL 还提出 ScalingInter-RL，即逐步增加交互跨度的课程学习策略。训练不是一开始就让模型处理最长、最复杂的任务，而是先从短 horizon 和简单交互开始，再逐步提升预算。这样模型可以先掌握基础技能，再学习规划、反思和回溯等长程能力。这对 Agentic RL 很重要，因为长程任务的失败空间巨大，如果早期探索过于困难，训练很容易陷入低质量轨迹。

4.3 Agent-R1：用 step-level trajectory 保留多轮因果结构

Agent-R1 讨论的是一个非常核心但容易被忽略的问题：轨迹应该如何表示。单轮 RL 可以把 rollout 当作一条扁平 token 序列，但 agentic rollout 包含多轮“观察-行动-反馈-奖励”。如果把它压平成一个序列，步骤边界、工具反馈和环境状态的因果关系会变得隐式；如果只保存 chat message，又可能在训练时重新套模板、重新分词，引入 retokenization drift，即 rollout 发生在 token 空间，但训练时使用的 token 不再严格等同于原始生成。 Agent-R1 因此把每个 agent-environment interaction step 作为轨迹的基本单位。每一步显式保存当前状态、下一状态、动作、环境观察、步骤奖励和终止信号，同时保留原始生成 token。这种结构既避免了分词漂移，又让训练系统可以定位过程奖励、重建上下文、裁剪无关信息或摘要历史。更重要的是，step-level trajectory 支持灵活的上下文规则。真实 agent 训练中，简单 append-only 上下文并不总是可取，尤其当工具输出冗长、错误日志很多或早期推理已过时时，全部保留会造成 context rot。Agent-R1 允许环境定义上下文构造规则：完整轨迹仍被保存，但模型可见上下文可以按任务需要保留、删除、摘要或转换部分步骤。在环境抽象上，Agent-R1 区分 Tool 和 ToolEnv。Tool 表示原子动作，例如 API 调用、代码执行、数据检索；ToolEnv 则负责解析工具调用、执行工具、更新环境状态、计算奖励并返回下一观察。这种分层把“动作接口”和“环境转移”拆开，使框架更容易接入不同任务。

4.4 AgentRL：异步、多任务、大规模 Agentic RL

AgentRL 进一步把 Agentic RL 推向多任务和大规模训练。文章指出，同步训练在 agent 场景中很难高效：同一个 batch 内，不同轨迹可能耗时差异很大，如果训练必须等待所有 rollout 完成，GPU 会在短轨迹结束后长期空转。更糟的是，环境交互本身也会带来随机延迟，浏览器、数据库、代码执行和网络接口都有不同耗时。 AgentRL 因此采用完全异步的训练管线，将 rollout 生成和模型训练解耦。推理引擎持续调度 rollout job，在可用资源上运行 agentic loop；训练引擎则在每次更新时拉取已经完成的轨迹，而不是等待固定 batch 全部结束。为了控制 off-policy 风险，系统会限制数据队列大小，并在每次更新时尽量排空队列，让轨迹尽可能接近当前策略。

图7：AgentRL 的多轮多任务训练框架：异步 rollout、环境控制器和训练引擎解耦运行。 AgentRL 还统一了环境部署接口。不同任务的动作格式和生命周期管理被封装为一致的 function-call API，环境 worker 作为隔离容器运行，由中央控制器统一调度、监控和回收。这让同一训练系统可以同时管理网页、操作系统、SQL、知识图谱等异构任务。在算法上，AgentRL 主要处理两个问题：多轮 agent 的探索会快速衰减，多任务训练又容易因为不同任务奖励尺度不同而不稳定。为增强探索，AgentRL 使用 cross-policy sampling，让同一条轨迹中的不同步骤可以由不同历史版本模型采样，从而产生单一策略难以探索到的行为组合。为稳定多任务训练，它使用 task-level advantage normalization：先按任务或域聚合 token-level advantages，再做均值方差归一化，避免某个任务域因奖励尺度过大主导更新。

4.5 AutoForge：自动合成可验证训练环境

Agentic RL 的一个现实瓶颈是环境。真实世界环境昂贵、难标注、难复现，还需要可验证奖励。AutoForge 试图用 LLM 自动合成环境和任务，从而扩大可训练数据规模。它从工具文档出发，自动构造环境状态空间、Python 工具实现、工具依赖图、复杂工具调用序列、任务意图和最终可验证状态。具体来说，AutoForge 首先根据工具文档生成状态键和工具函数；然后构建工具依赖图，并通过随机游走采样工具序列；接着把多个序列合并，插入 reasoning node，形成更复杂的 DAG；最后实例化具体参数、用户问题和 golden final state。训练时，agent 与合成环境以及模拟用户交互，任务完成后通过比较最终环境状态和 golden state 来给出奖励。 AutoForge 的 RL 方法 ERPO 可以看作 GRPO 的环境级扩展。普通 GRPO 通常在同一问题的多个 rollout 内做 advantage normalization；ERPO 则把同一环境内多个问题的有效轨迹纳入标准差估计，使优势缩放更稳健，减少单个问题或异常轨迹对训练的影响。

图8：AutoForge/ERPO 的环境级优势估计：均值仍按问题计算，但标准差扩展到同一环境中的有效轨迹。 AutoForge 还强调 interleaved thinking：在多步任务中保留每一步的思考轨迹，而不是每轮只给模型最新观察。这样可以让模型跨步骤保持计划和任务分析。不过这也会消耗更多上下文，因此需要和上下文压缩、历史筛选配合使用。

4.6 RAGEN：理解智能体 RL 的自进化与失稳

RAGEN 把多轮 RL 看作 agent 的“self-evolution”：模型通过自己的行为、环境反馈和奖励逐步改变策略。它提出 StarPO，把包含观察、推理、动作和反馈的完整轨迹作为优化单元，而不是把每个动作独立看待。每一步中，模型生成结构化输出，通常包含推理 trace 和环境可执行动作；环境更新后返回观察和可能的中间奖励；终止时再计算最终可验证奖励。

图9：RAGEN 中推理智能体的动作包含 thinking 与 output 两部分，便于把推理和环境动作纳入同一轨迹。 RAGEN 的重要贡献在于揭示 Agentic RL 特有的失稳模式。第一类是 echo trap：模型在 RL 中过度强化自己早期生成的推理模板，导致行为越来越重复，探索下降，奖励停滞甚至训练崩溃。典型信号包括训练奖励平台期、组内奖励方差下降、token entropy 降低以及梯度范数异常升高。为缓解 echo trap，RAGEN 提出稳定版 StarPO-S，包括鼓励探索、避免熵坍缩、选择高不确定性任务等策略。后续 RAGEN-2 又指出，即使 token entropy 看起来稳定，模型仍可能出现 template collapse：输出表面多样，但对不同输入缺乏区分度。也就是说，仅看“同一输入下生成是否多样”不够，还要看“不同输入是否诱发不同推理”。这推动了基于 mutual information proxy 的在线诊断。 RAGEN 系列给 Agentic RL 的提醒是：长程智能体训练不是简单把单轮 RL 拉长。模型可能学到局部有效但全局脆弱的模板，奖励上升也不一定代表泛化能力增强。训练系统需要同时监控奖励、熵、任务方差、跨输入区分度、轨迹长度和推理质量。

5. 实践原则：构建 Agentic RL 系统的关键经验

第一，模块化接口是基础。 AgentGym-RL 使用统一 HTTP 接口，Agent-R1 定义 Tool 与 ToolEnv，AgentRL 使用 function-call 环境 API。共同目标都是降低新任务接入成本，让环境、工具、奖励和优化器可以独立替换。 第二，轨迹结构必须显式。 Agentic RL 的训练样本不是单段文本，而是由指令、动作、工具调用、观察、奖励和环境状态组成的多轮记录。保存 step boundary、原始 action token 和环境反馈，可以降低训练与 rollout 的表示错配，也便于做过程奖励和上下文管理。 第三，action mask 几乎是标配。 多数工作只让 agent 自己生成的 token 参与 policy gradient，而不把环境返回内容、工具输出或用户文本纳入 RL loss。这可以避免模型为非自身行为承担梯度。不过，最新研究也开始探索对环境 token 使用 SFT 目标，相当于让模型一边用 RL 学行动，一边用监督信号学习世界反馈模式。 第四，outcome reward 简洁但信用分配困难。 可验证终局奖励非常适合数学、代码、网页任务和合成环境，但长程任务中仅靠最终成败往往很难定位哪一步出错。过程奖励可以改善信用分配，但设计不当也会引入偏置，例如 ToRL 中错误惩罚可能抑制工具探索。因此，过程奖励要慎用，最好与消融实验和稳定性监控配合。 第五，异步 rollout 是扩展的关键。 长程 agent 轨迹耗时高度不均，训练和推理必须解耦。异步系统能提高硬件利用率，但也会带来 stale rollout 和 off-policy 风险，需要通过队列上限、及时排空、模型版本控制等机制缓解。 第六，多任务训练需要归一化。 不同环境的奖励尺度、成功率和轨迹长度差异很大。AgentRL 的 task-level advantage normalization 和 AutoForge 的 environment-level advantage estimation 都是在解决同一个问题：让不同任务域的梯度贡献更均衡，避免某个环境支配更新。 第七，探索和稳定性要一起看。 Agentic RL 容易出现熵坍缩、echo trap、template collapse、梯度尖峰和策略过早收敛。仅追踪平均奖励不够，训练监控应覆盖 reward variance、token entropy、跨输入区分度、轨迹长度分布、工具调用成功率和任务域表现。 第八，数据分布要动态调控。 课程学习、任务筛选和合成环境都是为了让模型持续遇到“可学但不太容易”的任务。AgentGym-RL 逐步增加交互预算，RAGEN 优先选择高方差任务，AutoForge 自动构造复杂可验证任务，都体现了这一点。

6. 小结

Agentic RL 的本质，是把大模型从“会回答问题”训练成“会在环境中行动”。这要求 RL 系统同时处理多轮轨迹、工具调用、环境状态、长程信用分配和大规模 rollout 执行。文章梳理的几个框架虽然侧重点不同，但形成了清晰共识：未来的 agent 训练不只是换一个优化器，而是要重新设计训练数据结构、环境接口、并发系统、奖励机制和稳定性诊断。从实践角度看，最值得吸收的经验有三点。第一，先把环境和轨迹抽象做对，否则后续算法优化很难落地。第二，优先选择可验证、可复现、可隔离的任务，让 RL 信号足够干净。第三，在扩展训练规模时，把异步效率和 on-policy 程度之间的张力显式管理起来。Agentic RL 不是单纯的“更长上下文 + 更多工具”，而是一套围绕智能体行为学习重新构建的训练范式。