现实世界中的统计强化学习：挑战与未来方向综述

强化学习（Reinforcement Learning, RL）在游戏、机器人、在线广告、公共健康及自然语言处理等多个领域的决策任务中取得了卓越成就。然而，尽管进展显著，RL 研究与实际场景部署之间仍存在巨大鸿沟。该鸿沟主要源于两大挑战：其一，受限于实际约束，智能体往往难以在目标环境中进行充分交互；其二，目标环境常发生动态演变（例如，科技进步会改变医疗服务的交付模式），迫使 RL 系统必须进行重新设计与部署。要应对上述挑战并弥合基础研究与应用之间的断层，亟需一套能够直接指导现实环境下 RL 系统设计、实施及持续优化的理论与方法论。本文将 RL 的实际应用过程解构为三个核心环节：(i) 部署期间的在线学习与优化；(ii) 部署后期或部署间期的离线分析；(iii) 旨在实现系统持续改进的“部署-重部署”迭代循环。以此框架为基础，本文对统计强化学习（Statistical RL）的最新进展进行了叙述性综述，重点涵盖了提升部署间期推断的数据效用、增强部署内在线学习的样本效率，以及优化持续改进的序贯部署设计等方法。此外，本文还提出了若干应用驱动型（Use-inspired）的统计 RL 未来研究方向，旨在推动强化学习在实际应用中产生深远影响。 关键词： 强化学习；自适应实验；自适应干预；在线学习；统计推断；序贯部署

1. 引言

近年来，强化学习（Reinforcement Learning, RL）因其在游戏、自动驾驶和机器人等领域展现出的超越人类或尖端的性能表现，受到了学术界与工业界的广泛关注 [Mnih et al., 2015, Silver et al., 2017, Wurman et al., 2022, Tang et al., 2025, Kaufmann et al., 2023]。这些现实世界成功案例背后的核心因素之一，是深度学习技术的普及，使得从大数据中进行灵活学习成为可能。深度强化学习取得成功的应用场景通常具备以下共同特征：(1) RL 算法能够与目标环境或高保真模拟器进行大规模交互；(2) 环境的关键变量和动态特性变化极小，因此在未来的部署中，通常不需要或仅需极少量的在线 RL 重学习及算法重新设计。例如，最近一个备受瞩目的现实世界成功案例是利用深度 RL 在《跑车浪漫旅》（Gran Turismo）中击败人类顶级赛车手 [Wurman et al., 2022]。在该研究中，作者完全在模拟器中通过离线方式训练深度 RL 智能体——采用基于种群的训练（Population-based training）而非纯粹的自我博弈，以增强对多样化对手行为的鲁棒性——并随后将学到的策略作为固定控制器进行部署，无需在线学习或算法更新。这一成功部分归功于高保真模拟器的可用性，它允许智能体与目标环境进行密集交互和大规模探索，而无需承担现实世界中如赛车碰撞等风险。此外，尽管对手行为等外生因素可能随比赛而异，但决策问题的核心组成部分（如状态表示、动作空间、奖励定义和支配动力学）在不同部署之间并未发生实质性变化。因此，训练后的策略无需持续重学习或算法修正即可保持有效。当上述两个特征不适用时，RL 在现实世界中的应用将面临严峻挑战 [Dulac-Arnold et al., 2021a]。通过文献综述我们发现，在 RL 算法与人类交互的场景中，情况尤其如此。这主要受两大挑战驱动：(1) 无法与目标环境或高保真模拟器进行充分交互以获取海量数据；(2) 环境存在显著变化，要求 RL 算法在下次部署期间重新优化决策策略，和/或更新算法以备后续使用。

一个典型的例子是 RL 算法与人类的交互：虽然在某些领域（如临床试验中的数字干预）取得了一定的现实成功，但仍需大量的研发投入，即利用 RL 实现**即时自适应干预（Just-in-Time Adaptive Interventions, JITAIs）**的个性化 [Gazi et al., 2025a]。JITAIs 在日常生活中做出序列决策以支持个人健康。RL 作为一种在线学习和优化方法，在 JITAIs 个性化方面备受青睐。算法可根据从个体处感测和调查的状态信息（如心率），选择干预选项（如是否向手机发送推送通知）。随后，RL 算法观察个体的反应，并利用这些数据进行在线学习，以优化未来的决策。尽管 RL 在近期的数字干预临床试验中展现了前景 [Aguilera et al., 2024, Lee et al., 2025 等]，但仍存在限制其进一步转化的挑战。对应前述挑战 (1) 和 (2)，每个个体和每次部署均具有差异性，因此即使存在大量历史数据，新旧部署之间的个体匹配度可能依然较低。此外，社会和数字健康技术在短短几年内会发生剧变，导致动作、奖励或状态变量之间的关系以及变量本身发生改变 [Abernethy et al., 2022]。在线学习虽有助于应对这些失配，但探索受限于与个体的交互次数——不当的干预交付可能导致个体完全脱离（如卸载 JITAI 应用）[Nahum-Shani et al., 2018]。

为了使 RL 在上述现实应用中产生重大影响，必须解决挑战 (1) 和 (2)。图 1 提供了一个在现实系统中实施 RL 的前瞻性框架，这是一个包含三个组件的过程：部署期间的在线自主学习与优化、部署间期的离线学习与统计推断，以及在系统生命周期内实现持续改进的部署-重部署循环。这种持续的迭代过程与“离线到在线强化学习”（Offline-to-Online RL）相关 [Guo et al., 2024a]，即通过在线 RL 微调离线学到的策略；但本文框架更为宽泛，不仅包含离线到在线的转换（即为下次部署提供“热启动”），还包含在线到离线的知识迁移（即从每次部署中提炼可推广的知识），以及“离线-在线-离线...”的持续改进过程。统计方法对于增强从离线到在线过渡时的样本效率，以及确保在线到离线过渡时序列随机化数据的科学效用至关重要。

本文旨在对强化学习的进展进行综述（即叙述性评论），重点关注与未来现实应用机会最相关的领域。虽然已存在多篇关于 RL [Kaelbling et al., 1996a] 或特定子领域（如深度 RL）的综述，且近期文献也涵盖了离线 RL [Levine et al., 2020] 或探索与在线 RL [Ladosz et al., 2022]，但据我们所知，尚无综述重点探讨持续优化现实系统所需的“离线-在线-再离线”循环过程。因此，本文的综述章节依图 1 所示框架组织：部署内（在线自主）学习与优化、部署间（离线）学习与优化，以及持续改进。我们将始终强调应对挑战 (1) 和 (2) 的潜在大方向。在进入综述章节前，我们在第 2 节介绍基本概念和符号，在第 3 节展示突出图 1 流程的现实应用案例。需要说明的是，本文并非系统性综述（Systematic Review），而是一篇概论（Survey），我们的文献筛选标准包括：与未来机会的相关性、对前述两大挑战的应对能力，以及对应用驱动型（而非纯理论驱动）统计方法论的关注。