Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address the above limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces number of rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93\texttimes{} fewer rollouts and an up to 4.19\texttimes{} reduction in wall-clock time to match GRPO's best accuracy. Project website is available at https://slow-fast-po.github.io/.


翻译:强化学习已成为提升大语言模型推理能力的核心方法。然而,如分组相对策略优化等在线策略算法在训练初期常表现不佳:低质量轨迹产生的噪声梯度会导致更新不稳定与探索低效。本文提出慢-快策略优化,这是一个通过将每一步分解为三个阶段来解决上述局限的简洁高效框架:在相同批次上进行短时快速轨迹内步探索、控制离线策略偏移的重定位机制,以及最终的慢速校正。这种“重定位-后更新”的设计保持目标函数与轨迹生成过程不变,使得SFPO能够即插即用地兼容现有策略梯度流程。大量实验表明,SFPO能持续提升训练稳定性、减少轨迹采样次数并加速推理强化学习的收敛。具体而言,在数学推理基准测试中,其平均表现较GRPO提升最高达2.80分。为达到GRPO最佳精度,SFPO所需轨迹采样次数最多减少至1/4.93,实际运行时间最多缩短至1/4.19。项目网站详见 https://slow-fast-po.github.io/。

0
下载
关闭预览

相关内容

大模型慢思考技术探讨
专知会员服务
35+阅读 · 2025年4月22日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
17+阅读 · 2025年1月14日
专知会员服务
20+阅读 · 2021年5月4日
【优博微展2019】李志泽:简单快速的机器学习优化方法
清华大学研究生教育
15+阅读 · 2019年10月8日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
1+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
0+阅读 · 4月11日
无人机在美以伊战争中的关键启示(印度视角)
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员