As LLMs advance, post-training reinforcement learning (RL) increasingly relies on multi-dimensional rewards to cultivate comprehensive capabilities. This shift demands new algorithms capable of optimizing diverse and potentially competing objectives simultaneously. To address this, existing methods such as Group reward-Decoupled Policy Optimization (GDPO) decompose the overall score into independent reward groups, then compute the RL loss separately within each group. However, this strategy still encounters multi-reward conflicts: a single rollout can yield positive advantages on certain reward dimensions but negative ones on others, causing opposing signals to cancel each other out during aggregation, further hindering RL training efficiency. Inspired by Dynamic sAmpling Policy Optimization (DAPO), which improves RL training efficiency by filtering out ineffective rollouts with near-zero advantages, we propose Group-Dynamic reward-Decoupled Policy Optimization (GD$^2$PO). Specifically, GD$^2$PO employs a conflict-aware filtering mechanism to mask out rollouts suffering from severe reward-wise disagreement. By preventing conflicting signals from canceling each other out, this masking strategy preserves and enhances the magnitude of effective RL advantages, thereby significantly accelerating learning efficiency. Furthermore, we introduce query-level reweighting to dynamically adjust the update intensity of each query based on its overall reward consensus. Experiments on various multi-reward scenarios, including tool calling and human preference alignment, demonstrate that GD$^2$PO consistently and significantly outperforms existing baselines. The code is available at https://github.com/Qwen-Applications/GD2PO.


翻译:随着大语言模型(LLM)的进步,后训练强化学习(RL)日益依赖多维奖励以培养综合能力。这一转变要求新算法能够同时优化多样化且可能相互竞争的目标。为此,现有方法如群组奖励解耦策略优化(GDPO)将总体得分分解为独立的奖励群组,随后在各群组内分别计算RL损失。然而,该策略仍面临多奖励冲突:单次 rollout 可在某些奖励维度上产生正向优势,却在其他维度上产生负向优势,导致聚合过程中对立信号相互抵消,进一步阻碍RL训练效率。受动态采样策略优化(DAPO)启发——该方法通过过滤近零优势的无效 rollout 提升RL训练效率——我们提出群组动态奖励解耦策略优化(GD$^2$PO)。具体而言,GD$^2$PO采用冲突感知过滤机制,掩码处理遭受严重奖励维度分歧的 rollout。通过防止冲突信号相互抵消,该掩码策略保留并增强了有效RL优势的幅度,从而显著加速学习效率。此外,我们引入查询级重加权机制,依据每个查询的整体奖励共识动态调整其更新强度。在工具调用与人类偏好对齐等多种多奖励场景下的实验表明,GD$^2$PO始终显著优于现有基线方法。代码已开源在https://github.com/Qwen-Applications/GD2PO。

0
下载
关闭预览

相关内容

通用动力公司(General Dynamics)是一家美国的国防企业集团。2008年时通用动力是世界第五大国防工业承包商。由于近年来不断的扩充和并购其他公司,通用动力现今的组成与面貌已与冷战时期时大不相同。现今通用动力包含三大业务集团:海洋、作战系统和资讯科技集团。
【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】组合优化问题中的偏好优化
专知会员服务
12+阅读 · 2025年5月17日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
65+阅读 · 2024年6月9日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员