本文为强化学习(Reinforcement Learning, RL)教材的导读章节,旨在阐述全书十个章节的结构、核心概念及其逻辑演进。全书分为两大部分:基础工具算法实现。 逻辑链条清晰:从基础概念(状态/动作/奖励)延伸至马尔可夫决策过程(MDP),引入贝尔曼方程(Bellman Equation)进行策略评估,随后通过贝尔曼最优方程寻求最优策略。算法演进遵循从基于模型(Model-based, 动态规划)到无模型(Model-free, 蒙特卡洛/时序差分),再从表格型方法(Tabular methods)扩展至函数近似(Function Approximation, 深度强化学习),最终收敛于策略梯度(Policy Gradient)及 Actor-Critic 架构。

https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

在开启学习之旅前,审阅 Figure 1 所示的本书“路线图”至关重要。全书共十章,分为两大部分:第一部分介绍基础工具,第二部分阐述相关算法。这十章内容高度关联,通常需遵循由浅入深的顺序依次研习。 接下来,本文将带您快速浏览这十章内容,涵盖各章的主旨及其与前后章节的承接关系。此次概览旨在帮助读者建立对全书内容与结构的初步认知。若在此过程中遇到难以理解的概念,属正常现象;希望在阅读本概览后,您能制定出适合自己的学习计划。 * 第 1 章 介绍了状态(states)、动作(actions)、奖励(rewards)、回报(returns)及策略(policies)等基础概念,这些概念将广泛应用于后续章节。本章首先通过“机器人寻找预设目标”的栅格世界(grid world)示例引入这些概念,随后在马尔可夫决策过程(Markov decision processes, MDP)框架下对其进行了更形式化的定义。 * 第 2 章 引入了两个关键要素:一个核心概念与一个核心工具。

核心概念状态价值(state value),其定义为智能体(agent)从某一状态出发,若遵循给定策略所能获得的期望回报。状态价值越高,代表对应策略越优。因此,状态价值可用于评估策略的优劣。 * 核心工具贝尔曼方程(Bellman equation),用于分析状态价值。简言之,贝尔曼方程描述了所有状态价值之间的内在联系。通过求解该方程,即可获得状态价值。这一过程被称为策略评估(policy evaluation),是强化学习中的基本概念。最后,本章还介绍了**动作价值(action values)**的概念。 * 第 3 章 同样引入了两个关键要素。

核心概念最优策略(optimal policy)。相较于其他策略,最优策略具有最大的状态价值。 * 核心工具贝尔曼最优方程(Bellman optimality equation)。顾名思义,它是贝尔曼方程的一种特殊形式。 此处涉及一个根本性问题:强化学习的终极目标是什么?答案是获取最优策略。贝尔曼最优方程的重要性在于,它是获取最优策略的直接手段。读者将会发现,该方程形式优雅,能帮助我们透彻理解诸多底层问题。

前三章构成了本书的第一部分,为后续内容奠定了必要的理论基础。自第 4 章起,本书开始介绍学习最优策略的具体算法。 * 第 4 章 介绍了三种算法:价值迭代(value iteration)策略迭代(policy iteration)截断策略迭代(truncated policy iteration)。这三种算法关系密切:

价值迭代算法正是第 3 章中用于求解贝尔曼最优方程的算法。 1. 策略迭代算法是价值迭代的扩展,同时也是第 5 章中蒙特卡洛(MC)算法的基础。 1. 截断策略迭代则是一个统一框架,将价值迭代与策略迭代视为其特例。 这三种算法具有相同的结构,即每次迭代均包含两个步骤:价值更新策略更新。价值与策略交替更新的理念广泛存在于强化学习算法中,被称为广义策略迭代(generalized policy iteration, GPI)。此外,本章介绍的算法实质上属于动态规划(dynamic programming),需要系统模型(Model-based);而后续章节介绍的算法均无需模型。在进入后续章节前,务必深入理解本章内容。 * 第 5 章 开始介绍无需系统模型的无模型(model-free)强化学习算法。虽然这是本书首次引入无模型方法,但必须先填补一个知识空白:在没有模型的情况下如何寻找最优策略?其背后的哲学很简单:若无模型,则必有数据;若无数据,则必有模型;若二者皆无,则无计可施。强化学习中的“数据”是指智能体与环境交互时产生的经验样本(experience samples)。 本章介绍了三种基于蒙特卡洛(MC)估计的算法,旨在从经验样本中学习最优策略。其中最简单的 MC Basic 算法可由第 4 章的策略迭代算法直接扩展而来。理解 MC Basic 对于掌握基于蒙特卡洛的强化学习核心思想至关重要。在此基础上,我们进一步引入了两种更复杂但也更高效的 MC 算法。此外,本章还详细阐述了**探索与利用(exploration and exploitation)**之间的根本权衡。

至此,读者可能已经注意到各章内容之间的高度相关性。例如,研究 MC 算法(第 5 章)必须先理解策略迭代算法(第 4 章);学习策略迭代则需先掌握价值迭代(第 4 章);理解价值迭代需建立在贝尔曼最优方程(第 3 章)的基础上;而理解贝尔曼最优方程又需预先学习贝尔曼方程(第 2 章)。因此,强烈建议读者循序渐进地阅读,否则后期章节的内容可能难以理解。 * 第 6 章 旨在填补第 5 章到第 7 章之间的知识断层。第 5 章的算法是非增量式的,而第 7 章的算法是增量式(incremental)的。为此,第 6 章引入了随机逼近(stochastic approximation)理论。随机逼近是一类用于求解求根或优化问题的随机迭代算法。经典的 Robbins-Monro 算法与随机梯度下降(stochastic gradient descent, SGD)均属于随机逼近算法的特例。尽管本章未直接介绍强化学习算法,但它为第 7 章的学习奠定了必要的数学基础。 * 第 7 章 介绍了经典的时序差分(temporal-difference, TD)算法。有了第 6 章的铺垫,读者在接触 TD 算法时将不再感到突兀。从数学角度看,TD 算法可视为求解贝尔曼方程或贝尔曼最优方程的随机逼近过程。与蒙特卡洛学习类似,TD 学习也是无模型的,但其增量形式带来了显著优势。例如,它可以实现在线学习(online learning):每接收到一个经验样本即可更新价值估计。本章介绍了诸如 SarsaQ-learning 等多种 TD 算法,并引入了**同策略(on-policy)异策略(off-policy)的重要概念。 * 第 8 章 介绍了价值函数近似(value function approximation)**方法。实际上,本章延续了对 TD 算法的探讨,但采用了不同的状态/动作价值表示方式。在前几章中,价值通过表格(tabular method)表示,虽易于理解,但在处理大规模状态或动作空间时效率低下。为解决此问题,我们引入了价值函数近似法。理解该方法的关键在于掌握其优化公式的三个步骤:

选择目标函数以定义最优策略; 1. 推导目标函数的梯度; 1. 应用基于梯度的算法求解优化问题。 该方法已成为表示价值的标准技术,具有重要意义。这也是**人工神经网络(artificial neural networks)作为函数近似器被引入强化学习的切入点。著名的深度 Q 学习(deep Q-learning)算法亦在本章介绍。 * 第 9 章 介绍了策略梯度(policy gradient)方法,它是众多现代强化学习算法的基础。策略梯度法是基于策略(policy-based)的,这与此前各章中基于价值(value-based)的方法相比,是本书的一次重大跨越。其核心思想十分直观:选择合适的标量度量指标,随后通过梯度上升(gradient-ascent)**算法对其进行优化。第 9 章与第 8 章关系紧密,因为二者均依赖于函数近似的思想。策略梯度法的优势众多,例如在处理大规模状态/动作空间时更高效,且具有更强的泛化能力和更高的样本利用率。 * 第 10 章 介绍了 Actor-Critic 方法。从某种视角看,Actor-Critic 指的是一种融合了基于策略与基于价值方法的架构;从另一视角看,它并非全新内容,仍属于策略梯度方法的范畴。具体而言,它可以通过扩展第 9 章的策略梯度算法得到。在研习第 10 章之前,读者需对第 8 章和第 9 章的内容有透彻的理解。

成为VIP会员查看完整内容
3

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
5+阅读 · 今天12:11
《强化学习数学基础》
专知会员服务
3+阅读 · 今天12:07
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
7+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
4+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
4+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
5+阅读 · 今天6:12
微信扫码咨询专知VIP会员