Large language model (LLM) agents learn by interacting with environments, but long-horizon training remains fundamentally bottlenecked by sparse and delayed rewards. Existing methods typically address this challenge through post-hoc credit assignment or external reward models, which provide limited guidance at inference time and often separate reward improvement from policy improvement. We propose Self-Guide, a self-generated internal reward for language agents that supports both inference-time guidance and training-time supervision. Specifically, the agent uses Self-Guide as a short self-guidance signal to steer the next action during inference, and converts the same signal into step-level internal reward for denser policy optimization during training. This creates a co-evolving loop: better policy produces better guidance, and better guidance further improves policy as internal reward. Across three agent benchmarks, inference-time self-guidance already yields clear gains, while jointly evolving policy and internal reward with GRPO brings further improvements (8\%) over baselines trained solely with environment reward. Overall, our results suggest that language agents can improve not only by collecting more experience, but also by learning to generate and refine their own internal reward during acting and learning.


翻译:大型语言模型(LLM)智能体通过与环境的交互进行学习,但长期训练本质上受限于稀疏且延迟的奖励信号。现有方法通常通过事后信用分配或外部奖励模型来应对这一挑战,这些方法在推理阶段提供的指导有限,且往往将奖励优化与策略优化分开。我们提出Self-Guide——一种面向语言智能体的自生成内部奖励,可同时支持推理阶段引导与训练阶段监督。具体而言,智能体在推理阶段利用Self-Guide作为短暂的自导引信号来指引下一动作,并将相同信号转化为步级内部奖励,以实现训练期间更密集的策略优化。这形成了一个协同演化循环:更优策略产生更优引导,而更优引导又作为内部奖励进一步改进策略。在三个智能体基准测试中,推理阶段的自导引已带来显著增益,而采用GRPO联合演化策略与内部奖励,相较于仅使用环境奖励训练的基线方法,性能进一步提升了8%。总体而言,我们的结果表明:语言智能体不仅可通过积累更多经验来提升性能,更能在行动与学习过程中学会生成并优化自身的内部奖励。

0
下载
关闭预览

相关内容

基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
140+阅读 · 2024年2月6日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
「基于通信的多智能体强化学习」 进展综述
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员