Standard Reinforcement Learning with Verifiable Rewards (RLVR) training allocates a fixed rollout budget to every query, without regard for what each query's difficulty means for the current policy. This leads to two symmetric failure modes: easy queries produce near-zero advantage because the policy already solves them, while unsolvable queries produce no signal because the policy never solves them. Both regimes waste training FLOPs without contributing to a learning gradient. We introduce sorted Group Policy Optimization (sGPO), a compute-efficient strategy that trades a small budget of inference FLOPs for a large reduction in wasted training FLOPs. The key insight is that cheap inference compute can serve as a single offline proxy for query difficulty. By generating a small batch of parallel samples per query under the initial policy, we obtain a model-aware empirical success rate. This motivates setting the training rollout group size to the inverse of this success rate, a practical rule that maximizes sample efficiency by extracting the most advantage per generated rollout. This single profiling pass simultaneously drives data filtering (removing trivial queries and sub-sampling unsolvable ones), adaptive group size allocation, and curriculum construction (scheduling queries from easy to hard). sGPO matches or exceeds baseline performance while reducing total training compute by a factor of three, with the upfront inference profiling cost included.


翻译:摘要:标准可验证奖励强化学习(RLVR)训练为每个查询分配固定的生成预算,而未考虑每个查询的难度对当前策略的影响。这导致两种对称的失败模式:简单查询因策略已能解决而产生近乎为零的优势,而不可解查询因策略始终无法解决而不产生任何信号。两种模式均浪费训练FLOPs且无法贡献学习梯度。我们提出排序组策略优化(sGPO),这是一种计算高效策略,通过少量推理FLOPs的预算换取训练FLOPs的大幅减少。其核心洞察在于:低成本的推理计算可作为查询难度的一个离线代理指标。通过初始策略对每个查询生成一小批并行样本,我们获得模型感知的经验成功率。基于此,我们提出将训练生成组大小设置为该成功率的倒数——这一实用规则通过从每次生成中提取最大优势来最大化样本效率。这种单次性能分析过程同时驱动数据过滤(移除琐碎查询并对不可解查询进行子采样)、自适应组大小分配以及课程构建(按从易到难调度查询)。sGPO在匹配或超越基线性能的同时,将总训练计算量减少三倍(包含前置推理性能分析成本)。

0
下载
关闭预览

相关内容

【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员