Agentic reinforcement learning has enabled large language models to perform complex multi-turn planning and tool use. However, learning in long-horizon settings remains challenging due to sparse, trajectory-level outcome rewards. While prior tree-based methods attempt to mitigate this issue, they often suffer from high variance and computational inefficiency. Through empirical analysis of search agents, We identify a common pattern: performance diverges mainly due to decisions near the tail. Motivated by this observation, we propose Branching Relative Policy Optimization (BranPO), a value-free method that provides step-level contrastive supervision without dense rewards. BranPO truncates trajectories near the tail and resamples alternative continuations to construct contrastive suffixes over shared prefixes, reducing credit ambiguity in long-horizon rollouts. To further boost efficiency and stabilize training, we introduce difficulty-aware branch sampling to adapt branching frequency across tasks, and redundant step masking to suppress uninformative actions. Extensive experiments on various question answering benchmarks demonstrate that BranPO consistently outperforms strong baselines, achieving significant accuracy gains on long-horizon tasks without increasing the overall training budget. Our code is available at \href{https://github.com/YubaoZhao/BranPO}{code}.


翻译:智能体强化学习已使大型语言模型能够执行复杂的多轮规划与工具调用。然而,由于稀疏的轨迹级结果奖励,长视野场景下的学习仍然具有挑战性。尽管先前的基于树的方法尝试缓解此问题,但它们常受高方差与计算效率低下的困扰。通过对搜索智能体的实证分析,我们发现一个普遍模式:性能差异主要源于轨迹尾部的决策。受此观察启发,我们提出分支相对策略优化(BranPO),这是一种无需价值函数的方法,可在无密集奖励的情况下提供步骤级的对比监督。BranPO在轨迹尾部附近截断轨迹,并重采样替代延续路径,以在共享前缀上构建对比后缀,从而减少长视野推演中的信用分配模糊性。为进一步提升效率并稳定训练,我们引入难度感知分支采样以自适应调整不同任务的分支频率,以及冗余步骤掩码以抑制信息量低的动作。在多种问答基准上的大量实验表明,BranPO持续优于强基线方法,在未增加总体训练预算的情况下,于长视野任务上取得了显著的准确率提升。我们的代码发布于 \href{https://github.com/YubaoZhao/BranPO}{code}。

0
下载
关闭预览

相关内容

互联网
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
46+阅读 · 2023年7月11日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
157+阅读 · 2023年5月4日
专知会员服务
170+阅读 · 2021年8月3日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员