Multi-turn tool calling is challenging for Large Language Models (LLMs) because rewards are sparse and exploration is expensive. A common recipe, SFT followed by GRPO, can stall when within-group reward variation is low (e.g., more rollouts in a group receive the all 0 or all 1 reward), making the group-normalized advantage uninformative and yielding vanishing updates. To address this problem, we propose RC-GRPO (Reward-Conditioned Group Relative Policy Optimization), which treats exploration as a controllable steering problem via discrete reward tokens. We first fine-tune a Reward-Conditioned Trajectory Policy (RCTP) on mixed-quality trajectories with reward goal special tokens (e.g., <|high_reward|>, <|low_reward|>) injected into the prompts, enabling the model to learn how to generate distinct quality trajectories on demand. Then during RL, we sample diverse reward tokens within each GRPO group and condition rollouts on the sampled token to improve within-group diversity, improving advantage gains. On the Berkeley Function Calling Leaderboard v4 (BFCLv4) multi-turn benchmark, our method yields consistently improved performance than baselines, and the performance on Qwen-2.5-7B-Instruct even surpasses all closed-source API models.


翻译:多轮工具调用对于大型语言模型而言具有挑战性,因为奖励信号稀疏且探索成本高昂。常见的方案——先进行监督微调再执行组相对策略优化——在组内奖励差异较低时(例如,组内更多轮次获得全0或全1奖励)容易陷入停滞,导致组归一化优势度信息量不足,从而产生趋近于零的更新。为解决此问题,我们提出RC-GRPO(基于奖励条件化的组相对策略优化),该方法通过离散奖励令牌将探索问题转化为可控的导向问题。我们首先在混合质量轨迹上微调一个奖励条件化轨迹策略模型,并在提示中注入奖励目标特殊令牌(例如<|high_reward|>、<|low_reward|>),使模型能够学习如何按需生成不同质量的轨迹。随后在强化学习阶段,我们在每个GRPO组内采样多样化的奖励令牌,并基于采样的令牌条件化生成探索轨迹,从而提升组内多样性,改善优势度增益。在伯克利函数调用排行榜v4的多轮基准测试中,本方法相比基线模型取得了持续的性能提升,其中Qwen-2.5-7B-Instruct模型的性能甚至超越了所有闭源API模型。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员