【牛津博士论文】面向长时程决策任务的高效智能体训练方法

强化学习的研究范畴已从桌面模拟器拓展至真实机器人及开放世界游戏。然而，当前的智能体在学习过程中仍面临样本效率极低、忽视基座模型中所编码的先验知识，以及在数百步操作后即遗忘大部分既往经验等挑战。本论文围绕一个统一的议题——高效地训练高效的决策智能体——展开，并提出了三项连续的研究贡献。 第 3 章表明，通过针对最具信息量的状态转移（Transitions）进行经验重加权，可以显著提升样本效率。一种基于集成（Ensemble）的不确定性准则能够选择性地对那些有助于阐明因果结构的稀疏交互进行上采样，从而使离线强化学习（Offline RL）能够以远少于均匀回放所需的梯度更新次数，实现安全且高性能的策略。即使在不采集新交互数据的情况下，只要能够引入在其他领域学习到的结构化知识，更强的监督学习仍是可能的。第 4 章通过挖掘大型生成式视觉模型的内部表征来探索这一思路。尽管文本生成图像（Text-to-image）的扩散主干网络是为了图像合成而非控制任务训练的，但其积累的多尺度空间与语义线索在机器人数据集中极难从零开始习得。通过冻结这些主干网络并将其多层激活值投射至一种易于控制的嵌入空间——我们称之为稳定控制表征（Stable Control Representations, SCRs）——智能体便可获得关于物体几何形状和语言对齐的丰富归纳先验。在操纵任务和开放词汇导航任务中，SCRs 将达到预设回报所需的梯度步数降低了多达一个数量级，且表现一致优于对比学习训练的编码器，且全过程无需生成任何额外像素。该结果表明，重用预训练知识可将计算昂贵的探索过程转化为廉价的表征重用，从而显著提升样本效率。虽然上述章节侧重于学习的效率，但部署后的智能体还必须能够利用跨越数小时或数天的上下文进行高效决策。第 5 章引入了 Memo，这是一种 Transformer 策略架构，它通过在流式观测中交替插入周期性的摘要令牌（Summary tokens），使记忆容量随任务长度平缓增长。为了评估此类长程推理能力，第 6 章贡献了 FindingDory——一个可程序化扩展的基准测试家族，包含 60 个任务，旨在探测具身智能体存储与检索经验的能力。综上所述，这些工作共同规划了一条清晰的路径，即构建学习迅速、承袭丰富先验且具备关键记忆能力的智能体，向真正的终身自进化智能迈出了坚实的一步。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 2025年7月1日

《多智能体强化学习：复杂系统评估方法与应用》143页

专知会员服务

40+阅读 · 2025年5月27日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

多智能体强化学习控制与决策研究综述

专知会员服务

46+阅读 · 2024年11月23日