强化学习(Reinforcement Learning, RL)在游戏、机器人、在线广告、公共卫生和自然语言处理等多个领域的研究中取得了显著成功。尽管取得了这些进展,但 RL 研究与其实际应用部署之间仍存在巨大的鸿沟。产生这一差距的原因通常在于两个反复出现的挑战:首先,受限于实际约束,许多场景下智能体与目标环境进行大规模交互的机会非常有限;其次,目标环境往往会发生重大变化,需要对 RL 系统进行重新设计和重新部署(例如,科学技术的进步改变了医疗服务的格局)。要应对这些挑战并弥合基础研究与应用之间的差距,需要能够直接指导 RL 系统在真实环境中设计、实施和持续改进的理论与方法。 在本文中,我们将 RL 的实际应用框架化为一个由三个组件构成的过程:(i) 部署期间的在线学习与优化;(ii) 部署后或两次部署之间的离线分析;以及 (iii) 通过重复的“部署-再部署”周期来持续改进 RL 系统。我们对统计强化学习的最新进展进行了叙事性综述,涵盖了针对这些组件的解决方法,包括:旨在最大化部署间推断数据效用的方法、增强部署内在线学习样本效率的方法,以及为持续改进而设计的序列化部署方案。此外,我们还概述了统计强化学习中以“应用驱动”(use-inspired)为目标的未来研究方向,旨在推动 RL 在实践中的影响力应用。 关键词: 强化学习,自适应实验,自适应干预,在线学习,统计推断,序列化部署
近年来,由于强化学习(Reinforcement Learning, RL)在游戏、自动驾驶和机器人等领域展现出超越人类或达到最先进水平(State-of-the-art)的表现,该领域受到了学术界的广泛关注 [Mnih et al., 2015, Silver et al., 2017, Wurman et al., 2022, Tang et al., 2025, Kaufmann et al., 2023]。这些现实世界成功案例背后的关键驱动因素之一,是深度学习技术的激增,使得从大数据中进行灵活学习成为可能。深度强化学习取得成功的应用通常具有以下共同特征:(1) RL 算法能够与目标环境或高保真模拟器进行大规模交互;(2) 环境的关键变量和动力学特性变化极小,因此在未来的部署中,通常不需要或仅需偶尔进行在线 RL 重新学习或算法持续重构。 例如,最近一个备受瞩目的 RL 现实应用成功案例是利用深度 RL 在《GT赛车》(Gran Turismo)中击败人类冠军车手 [Wurman et al., 2022],这是一个高度真实的赛车模拟器。在该研究中,作者完全在模拟器中通过离线方式训练深度 RL 智能体——采用了超越纯自我博弈(Self-play)的基于种群的训练(Population-based training),以增强对不同对手行为的鲁棒性——随后将学习到的策略作为固定控制器进行部署,无需在线学习或算法更新。这一成功部分归功于高保真模拟器的可用性,它允许智能体与目标环境进行大量交互和大规模探索,且不会产生现实世界中汽车碰撞的风险。此外,尽管对手行为等外生因素可能随比赛而变化,但决策问题的核心组件(如状态表示、动作空间、奖励定义和支配动力学)在多次部署中并未发生实质性变化。因此,学习到的策略不需要持续的重新学习或算法修改即可保持有效。 然而,当上述两个特征不适用时,将 RL 应用于现实世界将面临巨大挑战 [Dulac-Arnold et al., 2021a]。通过文献回顾我们发现,在 RL 算法与人类交互的场景中,情况尤其如此。这主要源于两大挑战:(1) 无法与目标环境或高保真模拟器进行大规模交互以获取大量数据;(2) 环境中存在显著变化,要求 RL 算法在下次部署期间重新优化决策策略,或为下次部署更新 RL 算法。
RL 算法与人类交互并取得初步成功(例如在临床试验中部署的数字干预)但仍需大量研发的一个典型案例,是利用 RL 来实现即时自适应干预(Just-in-Time Adaptive Interventions, JITAIs)的个性化 [Gazi et al., 2025a]。JITAIs 在日常生活中做出序列化决策,以支持个人的健康。RL 作为一种在线学习和优化方法,在个性化 JITAIs 方面已获得关注。RL 算法可根据从个人身上感知和调研到的状态信息(如心率),选择关于干预选项的动作(例如,是否向个人的手机发送推送通知)。随后,RL 算法观察个人的反应,并利用这些数据进行在线学习,以相应地优化未来的决策。尽管 RL 在近期的现实数字干预临床试验中展现了潜力 [Aguilera et al., 2024, Lauffenburger et al., 2024, Trella et al., 2025, Ghosh et al., 2025, Lee et al., 2025],但仍存在限制其进一步转化的挑战。与前述挑战 (1) 和 (2) 相关联,由于每个个体和每次部署都是不同的,即使存在大量历史数据,新部署中的个体与先前部署中的个体之间的不匹配(Mismatch)可能依然显著。此外,社会和数字健康技术在短短几年内也会发生迅速变化,导致动作、奖励或状态变量之间的关系发生改变,甚至变量本身也会发生变化 [Abernethy et al., 2022, Gazi et al., 2025c]。在线学习虽有助于应对这些不匹配,但探索过程受限于与个体交互的次数——较差的干预交付(如卸载 JITAI 应用)可能导致个体完全停止参与 [Nahum-Shani et al., 2018]。 为了使 RL 在上述现实应用中产生重大影响,必须解决挑战 (1) 和 (2)。图 1 提出了一个在现实系统中实施 RL 的前瞻性框架,这是一个包含三个组件的过程:RL 算法部署期间的在线自主学习与优化、RL 系统部署之间的离线学习与统计推断,以及在 RL 系统生命周期内实现持续改进的持续部署-再部署过程。这种持续的部署-再部署过程与“离线转在线 RL”(Offline-to-online RL)的研究相关 [Guo et al., 2024a, Ball et al., 2023a, Kim et al., 2024a],即通过在线 RL 对离线学习的策略进行微调;但本框架更为广泛,不仅包括离线转在线(即下次部署的热启动),还包括在线转离线的知识转移(即从每次部署中提炼可泛化的知识),以及“离线-在线-离线……”的持续改进过程。在从离线到在线的过渡中,统计方法对于增强样本效率至关重要;而在从在线到离线的过渡中,统计方法则是确保序列随机化数据(Sequentially randomized data)具有科学效用的关键。
本文旨在对 RL 的进展进行综述(即叙事性回顾),重点关注我们认为与未来研究机会最相关、且有望在现实应用中产生影响的方向。目前已存在多篇关于 RL [Kaelbling et al., 1996a] 或其特定子领域(如深度 RL)[Arulkumaran et al., 2017] 的综述和叙事性回顾。近期的综述包括侧重于离线 RL [Levine et al., 2020, Prudencio et al., 2023] 或探索与在线 RL [Ladosz et al., 2022] 的叙事性回顾。然而,据我们所知,尚无综述强调现实系统持续改进所需的“离线-到-在线-再回到-离线”的持续循环过程。因此,本文的综述章节旨在突出图 1 所示框架中的所有三个组件:部署内(在线、自主)学习与优化、部署间(离线)学习与优化以及持续改进。在全文中,我们重点强调了应对挑战 (1) 和 (2) 的潜在大方向。在进入综述章节之前,我们在第 2 节介绍了基本概念和符号,随后在第 3 节介绍了强化学习的现实应用示例,以突出图 1 所示的三组件过程。由于本文并非系统性综述(Systematic review)而是综述研究(Survey),我们明确:文献纳入标准包括与未来机会的相关性、对前述两大挑战的应对情况,以及侧重于应用驱动(Application-motivated)而非纯理论驱动的统计方法论。