The past years have seen Large Language Models (LLMs) strive not only as generative models but also as agents solving textual sequential decision-making tasks. When facing complex environments where their zero-shot abilities are insufficient, recent work showed online Reinforcement Learning (RL) could be used for the LLM agent to discover and learn efficient strategies interactively. However, most prior work sticks to on-policy algorithms, which greatly reduces the scope of methods such agents could use for both exploration and exploitation, such as experience replay and hindsight relabeling. Yet, such methods may be key for LLM learning agents, and in particular when designing autonomous intrinsically motivated agents sampling and pursuing their own goals (i.e. autotelic agents). This paper presents and studies an adaptation of Soft Actor-Critic and hindsight relabeling to LLM agents. Our method not only paves the path towards autotelic LLM agents that learn online but can also outperform on-policy methods in more classic multi-goal RL environments.


翻译:近年来,大语言模型不仅在生成任务中表现出色,还逐渐成为解决文本序列决策任务的智能体。面对零样本能力不足的复杂环境时,近期研究表明可通过在线强化学习使大语言模型智能体以交互方式发现并学习高效策略。然而,现有研究大多局限于在线策略算法,这极大限制了智能体在探索与利用时可采用的方法范围,例如经验回放与后见之明重标注。此类方法对于大语言模型学习智能体可能至关重要,特别是在设计能够自主采样并追求其内在目标的自主智能体时。本文提出并研究了将Soft Actor-Critic与后见之明重标注适配于大语言模型智能体的方法。我们的方法不仅为实现在线学习的自主目标驱动型大语言模型智能体开辟了道路,还能在经典多目标强化学习环境中超越在线策略方法的性能。

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
「基于通信的多智能体强化学习」 进展综述
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关VIP内容
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员