The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm shift from conventional reinforcement learning applied to large language models (LLM RL), reframing LLMs from passive sequence generators into autonomous, decision-making agents embedded in complex, dynamic worlds. This survey formalizes this conceptual shift by contrasting the degenerate single-step Markov Decision Processes (MDPs) of LLM-RL with the temporally extended, partially observable Markov decision processes (POMDPs) that define Agentic RL. Building on this foundation, we propose a comprehensive twofold taxonomy: one organized around core agentic capabilities, including planning, tool use, memory, reasoning, self-improvement, and perception, and the other around their applications across diverse task domains. Central to our thesis is that reinforcement learning serves as the critical mechanism for transforming these capabilities from static, heuristic modules into adaptive, robust agentic behavior. To support and accelerate future research, we consolidate the landscape of open-source environments, benchmarks, and frameworks into a practical compendium. By synthesizing over five hundred recent works, this survey charts the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose AI agents.


翻译:智能体强化学习(Agentic RL)的出现标志着从传统应用于大语言模型的强化学习(LLM RL)的范式转变,将大语言模型从被动的序列生成器重新定义为嵌入复杂动态世界中的自主决策智能体。本综述通过对比LLM-RL中退化的单步马尔可夫决策过程(MDPs)与定义智能体强化学习的时序扩展、部分可观测马尔可夫决策过程(POMDPs),正式确立了这一概念转变。在此基础上,我们提出了一个全面的双重分类体系:一个围绕核心智能体能力(包括规划、工具使用、记忆、推理、自我改进和感知)组织,另一个则围绕这些能力在不同任务领域中的应用展开。本文的核心论点是:强化学习是将这些能力从静态的启发式模块转化为自适应、鲁棒的智能体行为的关键机制。为支持和加速未来研究,我们将开源环境、基准测试和框架的现状整合为一份实用手册。通过综合梳理五百余篇近期研究成果,本综述勾勒了这一快速发展领域的轮廓,并指出了将影响可扩展通用人工智能智能体发展的机遇与挑战。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员