This note introduces Projected Microbatch Accumulation (PROMA), a proximal policy update method for large language model fine-tuning. PROMA accumulates policy gradients across microbatches by projecting out sequence-wise gradient components before microbatch aggregation. The projection is applied layer-wise during the backward pass, enabling efficient implementation without additional forward or backward passes. Empirically, PROMA enforces tighter control of local KL divergence than GRPO, resulting in more stable policy learning. Unlike PPO and GRPO, PROMA achieves proximal updates without inducing entropy collapse and does not rely on a reference policy or likelihood-ratio clipping.


翻译:本技术说明介绍了投影微批次累积(PROMA),一种用于大语言模型微调的近端策略更新方法。PROMA通过在微批次聚合前投影掉序列维度的梯度分量,实现跨微批次的策略梯度累积。该投影在反向传播过程中逐层应用,无需额外的前向或反向传播即可高效实现。实证表明,与GRPO相比,PROMA能对局部KL散度实施更严格的控制,从而实现更稳定的策略学习。不同于PPO和GRPO,PROMA在实现近端更新的同时不会引发熵崩溃,且不依赖参考策略或似然比截断。

0
下载
关闭预览

相关内容

【ICML2025】扩散模型中参数高效微调的零样本适应
专知会员服务
13+阅读 · 2025年6月7日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
3+阅读 · 4月25日
多智能体协作机制
专知会员服务
3+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
6+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
【ICML2025】扩散模型中参数高效微调的零样本适应
专知会员服务
13+阅读 · 2025年6月7日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员