Advances in large language models (LLMs) are driving a shift toward using reinforcement learning (RL) to train agents from iterative, multi-turn interactions across tasks. However, multi-turn RL remains challenging as rewards are often sparse or delayed, and environments can be stochastic. In this regime, naive trajectory sampling can hinder exploitation and induce mode collapse. We propose TSR (Trajectory-Search Rollouts), a training-time approach that repurposes test-time scaling ideas for improved per-turn rollout generation. TSR performs lightweight tree-style search to construct high-quality trajectories by selecting high-scoring actions at each turn using task-specific feedback. This improves rollout quality and stabilizes learning while leaving the underlying optimization objective unchanged, making TSR optimizer-agnostic. We instantiate TSR with best-of-N, beam, and shallow lookahead search, and pair it with PPO and GRPO, achieving up to 15% performance gains and more stable learning on Sokoban, FrozenLake, and WebShop tasks at a one-time increase in training compute. By moving search from inference time to the rollout stage of training, TSR provides a simple and general mechanism for stronger multi-turn agent learning, complementary to existing frameworks and rejection-sampling-style selection methods.


翻译:大语言模型(LLM)的进展正推动着使用强化学习(RL)来训练智能体,使其能够跨任务进行迭代式多轮交互。然而,多轮强化学习仍然面临挑战,因为奖励通常是稀疏或延迟的,且环境可能具有随机性。在此情境下,简单的轨迹采样会阻碍有效利用并导致模式崩溃。我们提出了TSR(轨迹搜索展开),这是一种训练时方法,它重新利用了测试时扩展的思想来改进每轮展开的生成。TSR执行轻量级的树状搜索,通过使用特定于任务的反馈在每一轮选择高得分动作来构建高质量轨迹。这提高了展开质量并稳定了学习过程,同时保持底层的优化目标不变,使得TSR与优化器无关。我们使用最佳N选择、束搜索和浅层前瞻搜索来实例化TSR,并将其与PPO和GRPO配对,在Sokoban、FrozenLake和WebShop任务上实现了高达15%的性能提升和更稳定的学习,而训练计算量仅一次性增加。通过将搜索从推理时移至训练的展开阶段,TSR为更强的多轮智能体学习提供了一个简单而通用的机制,是对现有框架和拒绝采样式选择方法的有力补充。

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员