真实世界中的统计强化学习：挑战与未来方向综述

强化学习（Reinforcement Learning, RL）在游戏、机器人、在线广告、公共卫生和自然语言处理等多个领域的研究中取得了显著成功。尽管取得了这些进展，但 RL 研究与其实际应用部署之间仍存在巨大的鸿沟。产生这一差距的原因通常在于两个反复出现的挑战：首先，受限于实际约束，许多场景下智能体与目标环境进行大规模交互的机会非常有限；其次，目标环境往往会发生重大变化，需要对 RL 系统进行重新设计和重新部署（例如，科学技术的进步改变了医疗服务的格局）。要应对这些挑战并弥合基础研究与应用之间的差距，需要能够直接指导 RL 系统在真实环境中设计、实施和持续改进的理论与方法。在本文中，我们将 RL 的实际应用框架化为一个由三个组件构成的过程：(i) 部署期间的在线学习与优化；(ii) 部署后或两次部署之间的离线分析；以及 (iii) 通过重复的“部署-再部署”周期来持续改进 RL 系统。我们对统计强化学习的最新进展进行了叙事性综述，涵盖了针对这些组件的解决方法，包括：旨在最大化部署间推断数据效用的方法、增强部署内在线学习样本效率的方法，以及为持续改进而设计的序列化部署方案。此外，我们还概述了统计强化学习中以“应用驱动”（use-inspired）为目标的未来研究方向，旨在推动 RL 在实践中的影响力应用。 关键词： 强化学习，自适应实验，自适应干预，在线学习，统计推断，序列化部署

1 引言

近年来，由于强化学习（Reinforcement Learning, RL）在游戏、自动驾驶和机器人等领域展现出超越人类或达到最先进水平（State-of-the-art）的表现，该领域受到了学术界的广泛关注 [Mnih et al., 2015, Silver et al., 2017, Wurman et al., 2022, Tang et al., 2025, Kaufmann et al., 2023]。这些现实世界成功案例背后的关键驱动因素之一，是深度学习技术的激增，使得从大数据中进行灵活学习成为可能。深度强化学习取得成功的应用通常具有以下共同特征：(1) RL 算法能够与目标环境或高保真模拟器进行大规模交互；(2) 环境的关键变量和动力学特性变化极小，因此在未来的部署中，通常不需要或仅需偶尔进行在线 RL 重新学习或算法持续重构。例如，最近一个备受瞩目的 RL 现实应用成功案例是利用深度 RL 在《GT赛车》（Gran Turismo）中击败人类冠军车手 [Wurman et al., 2022]，这是一个高度真实的赛车模拟器。在该研究中，作者完全在模拟器中通过离线方式训练深度 RL 智能体——采用了超越纯自我博弈（Self-play）的基于种群的训练（Population-based training），以增强对不同对手行为的鲁棒性——随后将学习到的策略作为固定控制器进行部署，无需在线学习或算法更新。这一成功部分归功于高保真模拟器的可用性，它允许智能体与目标环境进行大量交互和大规模探索，且不会产生现实世界中汽车碰撞的风险。此外，尽管对手行为等外生因素可能随比赛而变化，但决策问题的核心组件（如状态表示、动作空间、奖励定义和支配动力学）在多次部署中并未发生实质性变化。因此，学习到的策略不需要持续的重新学习或算法修改即可保持有效。然而，当上述两个特征不适用时，将 RL 应用于现实世界将面临巨大挑战 [Dulac-Arnold et al., 2021a]。通过文献回顾我们发现，在 RL 算法与人类交互的场景中，情况尤其如此。这主要源于两大挑战：(1) 无法与目标环境或高保真模拟器进行大规模交互以获取大量数据；(2) 环境中存在显著变化，要求 RL 算法在下次部署期间重新优化决策策略，或为下次部署更新 RL 算法。

RL 算法与人类交互并取得初步成功（例如在临床试验中部署的数字干预）但仍需大量研发的一个典型案例，是利用 RL 来实现即时自适应干预（Just-in-Time Adaptive Interventions, JITAIs）的个性化 [Gazi et al., 2025a]。JITAIs 在日常生活中做出序列化决策，以支持个人的健康。RL 作为一种在线学习和优化方法，在个性化 JITAIs 方面已获得关注。RL 算法可根据从个人身上感知和调研到的状态信息（如心率），选择关于干预选项的动作（例如，是否向个人的手机发送推送通知）。随后，RL 算法观察个人的反应，并利用这些数据进行在线学习，以相应地优化未来的决策。尽管 RL 在近期的现实数字干预临床试验中展现了潜力 [Aguilera et al., 2024, Lauffenburger et al., 2024, Trella et al., 2025, Ghosh et al., 2025, Lee et al., 2025]，但仍存在限制其进一步转化的挑战。与前述挑战 (1) 和 (2) 相关联，由于每个个体和每次部署都是不同的，即使存在大量历史数据，新部署中的个体与先前部署中的个体之间的不匹配（Mismatch）可能依然显著。此外，社会和数字健康技术在短短几年内也会发生迅速变化，导致动作、奖励或状态变量之间的关系发生改变，甚至变量本身也会发生变化 [Abernethy et al., 2022, Gazi et al., 2025c]。在线学习虽有助于应对这些不匹配，但探索过程受限于与个体交互的次数——较差的干预交付（如卸载 JITAI 应用）可能导致个体完全停止参与 [Nahum-Shani et al., 2018]。为了使 RL 在上述现实应用中产生重大影响，必须解决挑战 (1) 和 (2)。图 1 提出了一个在现实系统中实施 RL 的前瞻性框架，这是一个包含三个组件的过程：RL 算法部署期间的在线自主学习与优化、RL 系统部署之间的离线学习与统计推断，以及在 RL 系统生命周期内实现持续改进的持续部署-再部署过程。这种持续的部署-再部署过程与“离线转在线 RL”（Offline-to-online RL）的研究相关 [Guo et al., 2024a, Ball et al., 2023a, Kim et al., 2024a]，即通过在线 RL 对离线学习的策略进行微调；但本框架更为广泛，不仅包括离线转在线（即下次部署的热启动），还包括在线转离线的知识转移（即从每次部署中提炼可泛化的知识），以及“离线-在线-离线……”的持续改进过程。在从离线到在线的过渡中，统计方法对于增强样本效率至关重要；而在从在线到离线的过渡中，统计方法则是确保序列随机化数据（Sequentially randomized data）具有科学效用的关键。

本文旨在对 RL 的进展进行综述（即叙事性回顾），重点关注我们认为与未来研究机会最相关、且有望在现实应用中产生影响的方向。目前已存在多篇关于 RL [Kaelbling et al., 1996a] 或其特定子领域（如深度 RL）[Arulkumaran et al., 2017] 的综述和叙事性回顾。近期的综述包括侧重于离线 RL [Levine et al., 2020, Prudencio et al., 2023] 或探索与在线 RL [Ladosz et al., 2022] 的叙事性回顾。然而，据我们所知，尚无综述强调现实系统持续改进所需的“离线-到-在线-再回到-离线”的持续循环过程。因此，本文的综述章节旨在突出图 1 所示框架中的所有三个组件：部署内（在线、自主）学习与优化、部署间（离线）学习与优化以及持续改进。在全文中，我们重点强调了应对挑战 (1) 和 (2) 的潜在大方向。在进入综述章节之前，我们在第 2 节介绍了基本概念和符号，随后在第 3 节介绍了强化学习的现实应用示例，以突出图 1 所示的三组件过程。由于本文并非系统性综述（Systematic review）而是综述研究（Survey），我们明确：文献纳入标准包括与未来机会的相关性、对前述两大挑战的应对情况，以及侧重于应用驱动（Application-motivated）而非纯理论驱动的统计方法论。

成为VIP会员查看完整内容