现实世界的决策任务充满了部分可观测性、长时程逻辑以及复杂的多智能体交互。本论文指出,抽象(Abstraction)——即构建保留关键信息并简化任务表征的过程——为应对无模型(Model-free)和有模型(Model-based)强化学习(RL)中的上述挑战提供了一个统一的原则。我们开发了一系列方法,使抽象不再依赖于手动设计,而是从学习目标中涌现(Emerge),从而产生的表征能够显著增强智能体应对高维观测、长程时间依赖以及智能体间耦合的能力。 在无模型多智能体方面,我们引入了局部奖励解耦(Partial Reward Decoupling, PRD)机制。这是一种博弈抽象机制,能够动态地将团队分解为子小组,从而简化跨智能体的信用分配并加速协作学习。此外,我们研究了带宽受限下的离散通信学习,使智能体能够学习在何种时机、向谁发送何种编码信息,进而将通信学习与表征学习及生成模型联系起来。 我们进一步展示了抽象如何缓解有模型 RL 中常见的模型学习与任务目标之间的失配问题。通过将有限的模型容量聚焦于任务相关因子,并在合适的时间尺度上运行,抽象能够提升世界模型在决策中的效用。为此,我们探索了利用**变分推断(Variational Inference, VI)来同时学习状态抽象和时间抽象。我们展示了一套状态抽象方法,该方法在剔除干扰细节的同时保留任务相关特征,在含有大量干扰项的控制基准测试中取得了强劲表现,且无需依赖数据增强启发式方法。同时,我们提出了一种基于隐变量的时间抽象方法,从离线数据中提取技能并学习时间抽象动力学模型,实现了对下游任务的高效长程预测与规划。 最后,我们提出了统一强化学习(Unified RL)**架构。该架构通过检测学习模型何时不再对策略提升有益,并适时回退至无模型学习更新,从而实现了有模型与无模型更新的融合。实证结果表明,Unified RL 在保持有模型方法高数据效率的同时,达到了与无模型 RL 相当的渐近性能。