【CMU博士论文】强化学习中的涌现式抽象

现实世界的决策任务充满了部分可观测性、长时程逻辑以及复杂的多智能体交互。本论文指出，抽象（Abstraction）——即构建保留关键信息并简化任务表征的过程——为应对无模型（Model-free）和有模型（Model-based）强化学习（RL）中的上述挑战提供了一个统一的原则。我们开发了一系列方法，使抽象不再依赖于手动设计，而是从学习目标中涌现（Emerge），从而产生的表征能够显著增强智能体应对高维观测、长程时间依赖以及智能体间耦合的能力。在无模型多智能体方面，我们引入了局部奖励解耦（Partial Reward Decoupling, PRD）机制。这是一种博弈抽象机制，能够动态地将团队分解为子小组，从而简化跨智能体的信用分配并加速协作学习。此外，我们研究了带宽受限下的离散通信学习，使智能体能够学习在何种时机、向谁发送何种编码信息，进而将通信学习与表征学习及生成模型联系起来。我们进一步展示了抽象如何缓解有模型 RL 中常见的模型学习与任务目标之间的失配问题。通过将有限的模型容量聚焦于任务相关因子，并在合适的时间尺度上运行，抽象能够提升世界模型在决策中的效用。为此，我们探索了利用**变分推断（Variational Inference, VI）来同时学习状态抽象和时间抽象。我们展示了一套状态抽象方法，该方法在剔除干扰细节的同时保留任务相关特征，在含有大量干扰项的控制基准测试中取得了强劲表现，且无需依赖数据增强启发式方法。同时，我们提出了一种基于隐变量的时间抽象方法，从离线数据中提取技能并学习时间抽象动力学模型，实现了对下游任务的高效长程预测与规划。最后，我们提出了统一强化学习（Unified RL）**架构。该架构通过检测学习模型何时不再对策略提升有益，并适时回退至无模型学习更新，从而实现了有模型与无模型更新的融合。实证结果表明，Unified RL 在保持有模型方法高数据效率的同时，达到了与无模型 RL 相当的渐近性能。

成为VIP会员查看完整内容

相关内容

博士论文

关注 131

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

【牛津博士论文】零样本强化学习综述

专知会员服务

31+阅读 · 2025年8月25日

【CMU博士论文】以人为中心的强化学习

专知会员服务

24+阅读 · 2025年8月16日

【CMU博士论文】强化学习中策略评估的统计推断

专知会员服务

26+阅读 · 2024年9月15日