强化学习(RL)已成为提升大语言模型(LLM)推理能力的核心后训练工具。在RL后训练系统中,rollout——即从提示(prompt)到终止的采样轨迹,包括中间推理步骤以及可选的工具或环境交互——决定了优化器学习所用的数据。然而,rollout设计常被视为实现细节而被低估。本综述为基于RL的推理LLM后训练提供了优化器无关的rollout策略视角。我们形式化统一符号的rollout管线,并引入**GFCR(生成-过滤-控制-重放)**生命周期分类法,将rollout管线分解为四个模块化阶段:Generate(生成)提出候选轨迹;Filter(过滤)通过验证器、评委或评论家构建中间信号;Control(控制)在预算下分配计算资源并做出继续/分支/停止决策;Replay(重放)在不更新权重的情况下跨rollout保留和复用工件。我们还补充了可靠性、覆盖率与信息性、成本敏感性三条准则,用于描述rollout设计必须权衡的要素。通过数学、代码/SQL、多模态推理、工具使用代理和代理技能基准等案例研究,我们验证了该框架的有效性。
随着强化学习在LLM后训练中地位的提升,rollout策略的重要性日益凸显。一个rollout是从提示到终止的采样轨迹,在纯文本设定中表现为包含中间推理和最终答案的完整输出;在工具或环境交互设定中,则包含动作-观察循环和外部反馈。rollout设计常常主导训练成本和学习信号质量,但现有文献多集中于优化算法和奖励建模,rollout策略的细节往往被低估或隐藏。 论文中的四幅配图如下:
本综述的贡献包括:首次系统组织rollout策略;提出GFCR和准则分类法;综合各类rollout方法;通过多领域案例进行验证;提供诊断索引和开放挑战。
我们将本综述与现有调查进行对比。现有调查主要围绕反馈建模、奖励学习和优化目标组织,隐含地处理rollout策略。例如,RLHF和偏好学习调查强调反馈收集与建模;RL增强LLM调查总结RLHF、RLAIF和直接偏好系列;技术调查聚焦RL算法和训练机制;管线级调查分类RL出现在数据生成、预训练、后训练和测试时推理的哪些位置;推理和代理中心综述则聚焦多步推理、搜索和环境交互。相比之下,本综述将rollout策略作为分析单位,提供模块化词汇表比较不同系统如何组合拓扑、采样、评分粒度、预算分配和经验复用。
本节建立基础。首先介绍GFCR的功能分解:Generate、Filter、Control、Replay四个模块。然后定义全局符号:rollout τ = (x, u_1:T, o_1:T),其中x是提示,u_t是模型动作,o_t是环境观察。训练系统通常采样单个rollout或一组K个rollout。Filter信号记为ϕ,训练信号S由Score(ϕ)得到。计算成本c(τ)和预算B约束整体优化。 GFCR模块常交错:Filter信号触发Control决策(如剪枝、提前停止),Replay工件种子化未来的Generate,Control策略决定哪些工件进入Replay。 准则分类法描述三个诉求:可靠性(可验证结果、稳健评委评分)、覆盖率与信息性(多样候选、分歧信号)、成本敏感性(价值归一化、提前停止)。GFCR是功能分解,准则是对选择理由和评价方式的描述。
Generate模块规定候选rollout的提议方式。输出是候选集T(x) = {τ^(i)},受拓扑Topo、指导z和采样配置κ_G影响。拓扑分为线性、组、树/图和交互式四类。线性rollout采样单轨迹;组rollout采样K个并行候选,支持组内比较和方差缩减(如GRPO);树/图rollout在中间前缀分支,利用共享前缀分摊计算并通过剪枝分配预算;多轮/工具rollout在动作-观察循环中运行。 指导与脚手架包括ICL种子、计划条件、反思子rollout、自适应指导强度和工具增强。采样策略包括解码参数(温度、top-p)、不确定性感知采样(根据奖励方差或语义熵分配计算)和仅采样推理增强。 代表性方法包括GRPO、DAPO、TreeRPO、TreeRL、RAGEN等。
Filter模块将候选rollout映射为中间信号和面向优化器的监督。形式化为:ϕ_i = F(τ^(i); T(x)),包含结构有效性门控(解析/编译/可执行性)、正确性验证(单元测试、精确匹配)、过程质量评分(步级PRM)、比较评估(成对/列表性评判)、学习价值信号(不确定性、熵)和训练信号构建(权重、优势、标签)。 结构有效性门控过滤掉格式不匹配的rollout,减少假阴性。正确性验证用于代码(单元测试)和数学(精确匹配)。过程评分提供步级部分信用。比较评估通过评委实现相对偏好。学习价值信号用于加权或引导采样。 代表性方法包括xVerify、RLTF、CodeRL、Lightman等人的PRM、GRPO的组内归一化等。
Control 模块回答的是:在有限预算下,哪些样本值得继续 roll out,哪些前缀应该提前停止,哪些分支应该扩展或剪掉,以及训练时应该混合多少新鲜 on-policy 数据和历史 off-policy 数据。它把 Filter 产生的中间信号、每条轨迹的计算成本以及全局预算约束转化为一系列决策,从而直接塑造实际被优化器看到的 rollout 组分布。换句话说,Generate 决定“能生成什么”,Filter 决定“哪些信号可用”,而 Control 决定“把算力花在哪里”。 从形式上看,Control 可以被理解为预算约束下的序贯决策过程。对一个 prompt x,系统维护一组正在展开的部分轨迹前缀,并在每一步根据成本 c(τ)、预算 B、Filter 信号 ϕ 和训练监督 S 决定继续、剪枝、重采样或存储。论文将其目标写成在每个 prompt 或全局预算约束下最大化学习效用 U(T),这里的效用可以是可用样本量、信号强度、正确性提升或其他训练价值代理。
第一类控制发生在 rollout 之前:选择哪些 prompt 值得生成。传统做法通常从训练分布中均匀采样,但许多 prompt 贡献的学习信号很低。例如,当一个 rollout 组里的所有样本奖励完全相同,GRPO 类方法的组内优势会坍缩为零,几乎没有梯度。GRESO 试图预测这种零方差 prompt 并在保留探索的同时跳过它们;VCRL 则把组内奖励方差视为样本难度代理,认为太容易或太难的 prompt 往往方差低,中等难度 prompt 更能产生有用学习信号。 另一条线使用不确定性建模做任务选择。VADE 用 Beta 后验估计每个 prompt 的正确率,并通过 Thompson sampling 偏向信息量高的 prompt;SEED-GRPO 不直接选择 prompt,而是根据多个答案的语义熵调节策略更新幅度,对高不确定样本采取更保守更新;SEC 则把课程选择建模为非平稳多臂老虎机,在类别层面学习哪些难度或任务类型能带来更高学习收益。它们共同体现出一个趋势:rollout 分配不再是固定采样过程,而是自适应资源管理问题。
第二类控制决定每个 prompt 分配多少 rollout 宽度、深度和 token 预算。早期 GRPO 风格训练常采用固定 K 个候选,但固定宽度会在简单题上浪费计算,也可能在困难题上探索不足。论文总结了方差感知、困难度感知和不确定性感知的调度方法:对低信息样本少采样,对争议样本或高不确定样本增加候选数、搜索深度或 token 预算。 这种调度也影响系统吞吐。长 reasoning rollout 具有明显长尾,少数超长样本会拖慢同步训练。控制层因此需要把 rollout 数量、最大长度、候选组大小、树搜索宽度以及 batch 负载均衡放在同一个预算框架下考虑。其核心权衡是:固定预算带来稳定实现,自适应预算提升计算效率,但也可能引入选择偏差和复现难度。
第三类控制针对单条轨迹的形态,包括最大长度、是否“深思考”、温度、top-p、简洁性奖励、正负样本比例等。ShorterBetter 用最短正确答案定义 Sample Optimal Length(SOL),希望学到实例自适应的最优 CoT 长度;DECS 指出轨迹级奖励和 token 级优化之间存在错配,因此引入解耦 token 级奖励和课程 batch 调度,减少冗余 token 而不压制必要探索。 是否需要长推理本身也可以被控制。AdaptThink 观察到简单问题上直接回答模式可能优于长推理,因此训练模型根据题目难度选择 thinking 或 no-thinking 模式;Large Hybrid-Reasoning Models 用冷启动微调加在线 RL 学习混合思考决策;CoRL 则关注调用外部 LLM 推理时的性能-成本权衡。GFPO 和 Train Long, Think Short 进一步说明:训练阶段多花一点采样和筛选成本,可能换来测试阶段更短、更高效的推理。
Control 还覆盖部分 rollout 的提前退出、树搜索剪枝以及多智能体分支控制。若某个前缀已经被局部检查器判定成功或高置信失败,系统可以停止继续生成;若树上某些分支前景较差,可以剪枝,把预算转移给更有希望的分支。TreeRPO 等方法利用树采样估计不同推理步骤的期望奖励,构造更密集的步骤级训练信号。 最后,Control 也决定 on-policy 和 off-policy 数据如何混合。on-policy rollout 与当前策略一致,但昂贵;历史 replay 能提高样本效率,却带来策略漂移风险。RePO 在 GRPO 中加入 replay buffer,ReMix 让 PPO/GRPO 等 on-policy RFT 方法利用 off-policy 数据;AR3PO 则通过在当前策略下重新计算旧响应 token 概率来缓解重要性比率失控。系统层面,ReSpec、DAS、TLT、EARL、Seer 等方法把 speculative decoding、长尾负载均衡、动态并行和相似样本复用纳入控制问题,以提升 rollout 吞吐。
Replay 模块关注 rollout 结束后“什么值得留下、如何复用、何时丢弃”。它不是简单的数据缓存,而是把过去生成的轨迹、验证信号、子步骤、失败样本、正确锚点和工具交互记录组织成可检索工件,使未来 Generate、Filter 和 Control 都能受益。论文用存储规则 Rstore 和检索规则 Rretrieve 来形式化 Replay:前者决定哪些轨迹或信号进入缓冲区,后者根据相似度、正确性、多样性、成本和新鲜度为新 prompt 检索相关工件。
最直接的 replay 是把完整响应作为可复用单元。其作用有两类:一是复用过去高价值样本,提升数据效率;二是在组归一化目标中稳定优势信号。例如,当当前 prompt 的所有 rollout 都错误时,GRPO 的奖励方差为零,梯度会消失。DAPO 通过动态采样继续寻找既非全错也非全对的 batch,但会增加推理成本;AR3PO 则保留早期正确响应,当当前组全错时注入缓存正确样本,让错误 rollout 获得负优势而不是零梯度。 Replay buffer 也支持 off-policy 复用。RePO、ReMix、ExGRPO 等方法利用历史响应改进样本效率,同时需要处理策略漂移和重要性权重问题。如果旧策略 πθ− 与当前策略 πθ 差异太大,复用样本可能带来偏差;因此需要重算概率、约束 KL、按正确性/熵/学习进展排序,或者设置刷新和淘汰机制。
第二种 replay 粒度不是整条轨迹,而是可验证片段。长推理、代码修复、工具调用和代理任务往往包含多个子问题或子轨迹,其中某些前缀、补丁、测试、工具结果是可复用的。把这些片段切分、验证、存储,再在新任务中重组,可以摊销共享计算,也能把学习信号从“终局正确/错误”细化到局部步骤。 这种思想尤其适合代码、SQL、数学证明和多步代理。代码任务里,已验证补丁、单元测试、错误日志和修复片段可以被缓存;数学任务里,正确中间引理或短正确片段可作为未来解题 scaffold;工具代理里,成功的网页导航子流程或 API 调用序列可转成可检索技能。相比整条 replay,片段 replay 更灵活,但也更依赖边界切分、片段正确性验证和上下文兼容性判断。
第三种 replay 更进一步:rollout 不只是训练数据,而会主动扩展训练分布。STaR、Self-Rewarding、Self-Play RL、AGILE/Auto-RL、Agent0、LANCE 等方法都体现了这种自我演化思路。模型可以生成新任务、反思已有缺陷、构造更难样本、给数据打偏好标签,甚至让一个课程智能体和一个执行智能体相互促进:课程智能体提出更难、更需要工具的问题,执行智能体通过 RL 学会解决这些问题。 这类方法的潜力在于减少人工标注依赖、持续扩展能力边界;风险则在于偏差累积、质量漂移和不可追踪。若自生成任务越来越偏离真实需求,或奖励模型与策略共同漂移,Replay 会把错误偏好固化进训练。论文因此强调 replay 需要记录来源、策略版本、验证器结果、时间戳和刷新状态,确保复用样本既有价值也可审计。
论文把基准看作 rollout 接口:任务实例 x 来自分布 D,模型在接口中产生轨迹 τ=(x,u1:T,o1:T),其中 u 是模型动作,o 是环境观察。不同领域的核心差异不只是任务内容,而是接口返回什么反馈、验证器是否可靠、轨迹是否多轮、能否复用片段,以及预算应如何在深度、宽度和重放之间分配。
数学、代码和 SQL 是最典型的可验证语言接口。数学任务通常是纯文本 rollout,终局答案经过归一化后用精确匹配或规则验证;DeepSeekMath、DeepSeek-R1、SEED-GRPO 等系统展示了 RLVR 风格目标如何与数学数据和采样策略结合。TreeRL、TreeRPO、VCRL 等方法进一步说明,树/组 rollout、方差感知课程和不确定性采样会显著影响训练稳定性与成本。 代码和 SQL 则是执行接地接口。模型输出程序、补丁或查询,验证器由编译、运行、单元测试或数据库执行提供。CodeRL、RLTF、LiveCodeBench、BIRD、Arctic-Text2SQL-R1 等案例表明,执行反馈天然形成“生成-执行-观察失败-修复”的多阶段 rollout。这里 Filter 很具体:能否编译、能否通过测试、执行结果是否等价;Replay 也很自然:可缓存通过测试的补丁、错误日志、部分查询和已验证片段。
多模态任务把输入扩展为图像、视频、空间场景或音视频片段。与数学/代码不同,多模态推理往往缺少通用强验证器,因此系统需要把任务设计成可规则验证,或者借助结构化答案抽取、标签检查、合成数据和专门评测协议来获得相对稳定的奖励。R1-VL、MMR1、SpaceR、SPACEVISTA、InternSpatial、SPAR、VSI-Bench 等工作体现了这种方向。 对 GFCR 来说,多模态接口让 Generate 更复杂:rollout 可能包含视觉观察、文本推理和空间关系判断;Filter 需要把自由文本答案转成可检查结构;Control 要决定是否需要更多视觉证据、更多采样或更长 reasoning;Replay 则可以复用已验证视觉-语言推理模板、空间关系片段或合成样本生成策略。
代理交互任务与纯文本任务的关键差异是 o1:T 不为空:模型每一步动作都会改变环境并收到观察。软件工程基准(如 SWE-Bench、SWE-agent、SWE-Gym、Agent-RLVR)要求模型在代码库中定位问题、编辑文件、运行测试并根据反馈迭代。Web 代理基准(BrowserGym、AgentDojo、ARLAS)要求模型点击、输入、浏览并处理网页状态,也可能面对间接提示注入等安全风险。对话模拟器(RLVER、SAGE)则把用户状态和情绪轨迹作为可验证奖励来源。 这些基准中的 rollout 通常长、稀疏奖励明显、环境反馈昂贵。因此 Control 的作用被放大:何时停止、何时回退、何时开新分支、是否继续调用工具,都决定成本与成功率。Replay 也从“记住答案”变成“记住过程”:成功的工具调用序列、网页导航流程、代码编辑策略和失败诊断都可能成为未来任务的可复用经验。
代理技能基准进一步考察模型能否从轨迹中归纳可复用技能,并迁移到新任务。WebArena、Mind2Web、BrowserGym 等环境中,Agent Workflow Memory 将子流程抽象为可检索自然语言工作流;Agent Skill Induction 把技能表示为可重新执行的 Python 函数;SkillWeaver 让代理自动发现并打磨可复用 API;ReUseIt 等工作关注技能在不同任务和模型间的复用。 在这一类接口中,GFCR 的四个模块更像一个长期学习循环:Generate 产生候选行动和技能调用,Filter 验证技能是否成功,Control 决定是否存入技能库或继续探索,Replay 在新任务中检索旧技能。论文强调,这类场景把 rollout 策略从“单次后训练采样技巧”推向“持续自我改进系统设计”:关键不只是一次任务成功,而是能否形成可维护、可追踪、可迁移的经验库。
常见rollout病理包括:零奖励模式(所有rollout失败)、奖励黑客、长度膨胀、信号噪声、计算浪费、回放过时等。GFCR框架提供了诊断索引,将每个病理映射到具体模块和缓解杠杆。开放挑战包括:验证器/评委校准、原则性计算核算、安全自我演化与溯源追踪、改进汇报标准以增强可重复性。
本综述通过GFCR框架系统组织了LLM强化学习后训练中的rollout策略。我们将rollout管线分解为生成、过滤、控制、重放四个模块,并辅以可靠性、覆盖率、成本敏感性准则。通过数学、代码、多模态、代理等领域案例,展示了该框架的统一描述能力。我们提供了诊断索引和开放挑战,期望推动更可重复、高效且可信的rollout管线设计。