强化学习(RL)为序贯决策提供了一个强大的框架,并赋能了广泛的高影响力应用。然而,现实世界中的 RL 问题极少以其“原始(Vanilla)”形式出现:它们通常带有丰富的、依赖于具体问题的结构(Structures),这些结构要么对算法设计施加了额外的约束,要么提供了可被利用以提升学习效率的特性。RL 算法设计的核心主题在于识别这些结构,并开发专门的技术来提升其统计效率与实际效率。在本论文中,我们系统地研究了几类具有影响力的结构化 RL 问题家族,并开发了具有严谨理论保障的原则性算法。 在第一部分,我们关注单智能体 RL 并分析了两种普遍的结构特征。首先是辅助信息(Auxiliary information)的可获得性,其表现形式为近似价值函数或模型(如模拟器)。我们开发了双重稳健策略梯度(Doubly-Robust Policy Gradients)估计器,将此类侧向信息与先进的方差缩减技术相结合,实现了采样效率更高且更稳定的策略优化。第二个特征是部署约束(Deployment constraints),即对更新或部署新策略频率的限制,这在面向用户及安全敏感型应用中无处不在。这促使了对部署高效型 RL(Deployment-efficient RL)的研究,其中部署成本被视为核心资源。我们推导了实现近优性能所需的策略部署次数在信息论意义下的紧确下界,并设计了达到近优部署效率的算法。 在第二部分,我们将研究转向多智能体 RL,即多个决策者进行策略性交互。我们首先考虑建模为均值场博弈(Mean-Field Games, MFGs)的大规模群体系统,并展示了如何利用对称结构来实现高效的纳什均衡(Nash Equilibrium)学习,即使在智能体数量极大的情况下亦然。随后,我们研究了遵循结构化学习动力学的自治智能体的激励设计(Incentive design)。我们识别出了一个简单且实用的“马尔可夫”条件——即智能体的策略更新仅依赖于其当前策略和观测到的奖励。在此条件下,即使委托人(Principal)没有智能体内部学习规则的显式模型,学习有效且高效的激励(或“引导”)策略也是可行的。 最后,我们调查了面向大语言模型(LLMs)后训练阶段的 RL,重点关注**人类反馈强化学习(RLHF)**中的迁移学习。我们分析了由 KL 正则化 RLHF 目标函数诱导的特殊结构属性,揭示了策略可覆盖性与其次优性间隙(Suboptimality gap)之间的新关联。基于这些见解,我们提出了具有可证明改进(相比于从头开始学习)的迁移学习算法,并通过实验证明了其实证效益。