RL-based post-training with GRPO is widely used to improve large language models on individual reasoning tasks. However, real-world deployment requires reliable performance across diverse tasks. A straightforward multi-task adaptation of GRPO often leads to imbalanced outcomes, with some tasks dominating optimization while others stagnate. Moreover, tasks can vary widely in how frequently prompts yield zero advantages (and thus zero gradients), which further distorts their effective contribution to the optimization signal. To address these issues, we propose a novel Multi-Task GRPO (MT-GRPO) algorithm that (i) dynamically adapts task weights to explicitly optimize worst-task performance and promote balanced progress across tasks, and (ii) introduces a ratio-preserving sampler to ensure task-wise policy gradients reflect the adapted weights. Experiments on both 3-task and 9-task settings show that MT-GRPO consistently outperforms baselines in worst-task accuracy. In particular, MT-GRPO achieves 16-28% and 6% absolute improvement on worst-task performance over standard GRPO and DAPO, respectively, while maintaining competitive average accuracy. Moreover, MT-GRPO requires 50% fewer training steps to reach 50% worst-task accuracy in the 3-task setting, demonstrating substantially improved efficiency in achieving reliable performance across tasks.


翻译:基于强化学习的GRPO后训练被广泛用于提升大语言模型在单一推理任务上的表现。然而,实际部署需要模型在多样化任务上均具备可靠性能。对GRPO进行简单的多任务适配常导致不平衡的结果,部分任务主导优化过程而其他任务停滞不前。此外,不同任务在提示产生零优势(进而导致零梯度)的频率上存在显著差异,这进一步扭曲了它们对优化信号的实际贡献。为解决这些问题,我们提出了一种新颖的多任务GRPO(MT-GRPO)算法,该算法(i)动态调整任务权重以显式优化最差任务性能,促进跨任务的均衡进展;(ii)引入比率保持采样器,确保任务层面的策略梯度反映调整后的权重。在3任务和9任务设置上的实验表明,MT-GRPO在最差任务准确率上持续优于基线方法。具体而言,相较于标准GRPO和DAPO,MT-GRPO在最差任务性能上分别实现了16-28%和6%的绝对提升,同时保持了具有竞争力的平均准确率。此外,在3任务设置中,MT-GRPO仅需50%的训练步数即可达到50%的最差任务准确率,这显著提升了实现跨任务可靠性能的训练效率。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
25+阅读 · 2022年2月22日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
25+阅读 · 2022年2月22日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员