Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for Large Language Model (LLM) reasoning, yet current methods face key challenges in resource allocation and policy optimization dynamics: (i) uniform rollout allocation ignores gradient variance heterogeneity across problems, and (ii) the softmax policy structure causes gradient attenuation for high-confidence correct actions, while excessive gradient updates may destabilize training. Therefore, we propose DynaMO, a theoretically-grounded dual-pronged optimization framework. At the sequence level, we prove that uniform allocation is suboptimal and derive variance-minimizing allocation from the first principle, establishing Bernoulli variance as a computable proxy for gradient informativeness. At the token level, we develop gradient-aware advantage modulation grounded in theoretical analysis of gradient magnitude bounds. Our framework compensates for gradient attenuation of high-confidence correct actions while utilizing entropy changes as computable indicators to stabilize excessive update magnitudes. Extensive experiments conducted on a diverse range of mathematical reasoning benchmarks demonstrate consistent improvements over strong RLVR baselines. Our implementation is available at: https://github.com/GithubX-F/DynaMO-RL.


翻译:可验证奖励强化学习(RLVR)在大语言模型(LLM)推理任务中已被证明行之有效,但当前方法在资源分配与策略优化动态过程中面临关键挑战:(i)统一展开分配忽略了问题间梯度方差的异质性,(ii)softmax策略结构导致高置信度正确动作的梯度衰减,而过度的梯度更新可能破坏训练稳定性。为此,我们提出DynaMO——一个具有理论根基的双管齐下优化框架。在序列层面,我们证明统一分配并非最优,并从第一性原理推导出方差最小化分配方案,确立伯努利方差作为梯度信息量的可计算代理指标。在词元层面,我们基于梯度量级边界的理论分析,发展了梯度感知的优势调制机制。该框架在补偿高置信度正确动作梯度衰减的同时,利用熵变作为可计算指标来抑制过大的更新幅度。在多样化数学推理基准上开展的大量实验表明,本方法相较强RLVR基线具有一致优越性。我们的实现代码已开源:https://github.com/GithubX-F/DynaMO-RL。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
谷歌大脑《自动强化学习》教程,81页ppt!
专知会员服务
68+阅读 · 2022年8月15日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
0+阅读 · 3月26日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
谷歌大脑《自动强化学习》教程,81页ppt!
专知会员服务
68+阅读 · 2022年8月15日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员