现实世界的决策任务充满了部分可观测性、长时程逻辑以及复杂的多智能体交互。本论文指出,抽象(Abstraction)——即构建保留关键信息并简化任务表征的过程——为应对无模型(Model-free)和有模型(Model-based)强化学习(RL)中的上述挑战提供了一个统一的原则。我们开发了一系列方法,使抽象不再依赖于手动设计,而是从学习目标中涌现(Emerge),从而产生的表征能够显著增强智能体应对高维观测、长程时间依赖以及智能体间耦合的能力。 在无模型多智能体方面,我们引入了局部奖励解耦(Partial Reward Decoupling, PRD)机制。这是一种博弈抽象机制,能够动态地将团队分解为子小组,从而简化跨智能体的信用分配并加速协作学习。此外,我们研究了带宽受限下的离散通信学习,使智能体能够学习在何种时机、向谁发送何种编码信息,进而将通信学习与表征学习及生成模型联系起来。 我们进一步展示了抽象如何缓解有模型 RL 中常见的模型学习与任务目标之间的失配问题。通过将有限的模型容量聚焦于任务相关因子,并在合适的时间尺度上运行,抽象能够提升世界模型在决策中的效用。为此,我们探索了利用**变分推断(Variational Inference, VI)来同时学习状态抽象和时间抽象。我们展示了一套状态抽象方法,该方法在剔除干扰细节的同时保留任务相关特征,在含有大量干扰项的控制基准测试中取得了强劲表现,且无需依赖数据增强启发式方法。同时,我们提出了一种基于隐变量的时间抽象方法,从离线数据中提取技能并学习时间抽象动力学模型,实现了对下游任务的高效长程预测与规划。 最后,我们提出了统一强化学习(Unified RL)**架构。该架构通过检测学习模型何时不再对策略提升有益,并适时回退至无模型学习更新,从而实现了有模型与无模型更新的融合。实证结果表明,Unified RL 在保持有模型方法高数据效率的同时,达到了与无模型 RL 相当的渐近性能。

成为VIP会员查看完整内容
14

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】深度学习中泛化的量化、理解与改进
专知会员服务
21+阅读 · 2025年10月11日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
【CMU博士论文】以人为中心的强化学习
专知会员服务
23+阅读 · 2025年8月16日
【CMU博士论文】强化学习中策略评估的统计推断
专知会员服务
26+阅读 · 2024年9月15日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
58+阅读 · 2021年10月16日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
94+阅读 · 2020年9月28日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
【论文笔记】基于强化学习的句子摘要排序
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
On Computation and Reinforcement Learning
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
1+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
0+阅读 · 4月11日
无人机在美以伊战争中的关键启示(印度视角)
相关VIP内容
【CMU博士论文】深度学习中泛化的量化、理解与改进
专知会员服务
21+阅读 · 2025年10月11日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
【CMU博士论文】以人为中心的强化学习
专知会员服务
23+阅读 · 2025年8月16日
【CMU博士论文】强化学习中策略评估的统计推断
专知会员服务
26+阅读 · 2024年9月15日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
58+阅读 · 2021年10月16日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
94+阅读 · 2020年9月28日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员