生成模型中组相对策略优化 (GRPO) 的研究进展：综述

大规模流匹配模型 (Flow Matching Models) 在文本生成图像、视频、3D 及语音合成等生成式任务中表现卓越。然而，如何使模型输出符合人类偏好 (Human Preferences) 并满足特定任务目标，仍是一项严峻挑战。Flow-GRPO 框架将组相对策略优化 (GRPO) 机制引入生成模型，为生成系统提供了稳定的强化学习 (RL) 对齐方案。自提出以来，Flow-GRPO 催生了研究规模的快速增长，研究范畴涵盖方法论演进及多元应用领域。本综述对 Flow-GRPO 及其后续发展进行了系统性回顾。我们从两个核心维度对现有工作进行了梳理：首先，分析了在原始框架基础上的方法论进展，包括奖励信号设计、信用分配 (Credit Assignment)、采样效率优化、多样性保持、奖励作弊 (Reward Hacking) 缓解以及奖励模型构建；其次，探讨了基于 GRPO 的对齐技术在不同生成范式与模态中的扩展应用，涉及文本生成图像、视频生成、图像编辑、语音音频、3D 建模、具身视言行 (VLA) 系统、统一多模态模型、自回归与掩码扩散模型以及图像修复任务。通过整合理论洞察与工程实践，本综述凸显了 Flow-GRPO 作为现代生成模型通用对齐框架的重要性，并指出了构建可扩展且鲁棒的强化学习生成模型所面临的关键挑战。

1 引言 (Introduction)

大规模流匹配 (Flow Matching) [73] 模型在文本生成图像、视频、3D 以及语音合成等生成任务中展现出了卓越的性能 [197, 126, 69, 65, 26]。然而，这些模型的输出往往与人类偏好或特定任务目标对齐不足。组相对策略优化 (Group Relative Policy Optimization, GRPO) [107] 是一种以候选组内相对优势为核心的强化学习算法。与需要学习显式价值函数 (Value Function) 的传统策略梯度方法不同，GRPO 在每个更新步骤中对比同等条件下采样出的多条轨迹，并利用归一化后的相对奖励来估计优势 (Advantages)。这种设计显著提升了训练稳定性。GRPO 最初被引入用于大语言模型 (LLMs) 的对齐：通过要求模型从一组候选答案中选择更符合人类偏好的响应，前人的工作表明，GRPO 比基于价值的优化方法更稳定，具备更高的样本效率，并能有效缓解由不完美偏好模型引起的误差放大。然而，将 GRPO 从文本生成扩展到更多的生成任务（如视觉、3D 和语音任务）并非易事。扩散模型和流匹配模型通常需要数十到数百个去噪或演化步骤才能生成单个图像，这使得其采样成本远高于 LLMs。它们的采样过程通常被表述为确定性常微分方程 (ODE) 求解器，这限制了候选组的多样性。此外，视觉任务中的奖励通常仅在最终步骤可用（例如图像质量评分），导致严重的信用分配 (Credit Assignment) 问题。同时，视觉领域的奖励模型更容易受到奖励作弊 (Reward Hacking) 的影响，即模型通过挖掘捷径来提高奖励分数，却损害了真实的感知质量。 Flow-GRPO [77] 是首个将 GRPO 成功应用于视觉生成任务的工作。它通过将流匹配模型的确定性 ODE 公式转换为随机微分方程 (SDE) 解决了随机性缺失的问题，并在训练过程中引入了去噪收缩 (Denoising-Shrinkage) 策略以降低反向时间采样成本。实验表明，Flow-GRPO 将 GenEval 在文本渲染任务上的准确率从 63% 提升至 95%，字符渲染准确率从 59% 提升至 92%。该论文还推导了 ODE 到 SDE 转换的显式公式，并证明通过引入适当的漂移 (Drift) 和扩散 (Diffusion) 项，所得随机过程在期望上与原始 ODE 等价。自 2025 年中以来，围绕 Flow-GRPO 的研究课题经历了爆发式增长，涵盖了包括文生图 (T2I)、文生视频 (T2V)、图生视频 (I2V)、语音增强、3D 生成、视言行 (VLA) 系统等广泛的应用领域。截至目前，这一快速扩张的研究方向已积累了 200 多篇已发表论文，反映了学术界强大且持续的研究兴趣。本综述对所有这些工作进行了系统且全面的回顾，并从以下维度进行组织和分析：

Flow-GRPO 之外的方法论进展：

奖励信号设计：从稀疏到稠密 (§3.1)。 * 信用分配：从轨迹级到步骤级 (§3.2)。 * 采样效率与训练加速 (§3.3)。 * 模式塌缩与多样性保持 (§3.4)。 * 奖励作弊 (Reward Hacking) 缓解 (§3.5)。 * ODE 与 SDE 采样策略对比 (§3.6)。 * 奖励模型设计与评估基准 (§3.7)。

在生成任务中的扩展：

文本生成图像 (§4.1)。 * 视频生成 (§4.2)。 * 图像编辑 (§4.3)。 * 语音与音频 (§4.4)。 * 3D 生成与科学应用 (§4.5)。 * VLA 与具身智能 (Embodied AI) (§4.6)。 * 统一多模态模型 (§4.7)。 * 自回归与掩码扩散模型 (§4.8)。 * 图像修复与超分辨率 (§4.9)。

成为VIP会员查看完整内容