强化学习的研究范畴已从桌面模拟器拓展至真实机器人及开放世界游戏。然而,当前的智能体在学习过程中仍面临样本效率极低、忽视基座模型中所编码的先验知识,以及在数百步操作后即遗忘大部分既往经验等挑战。本论文围绕一个统一的议题——高效地训练高效的决策智能体——展开,并提出了三项连续的研究贡献。 第 3 章表明,通过针对最具信息量的状态转移(Transitions)进行经验重加权,可以显著提升样本效率。一种基于集成(Ensemble)的不确定性准则能够选择性地对那些有助于阐明因果结构的稀疏交互进行上采样,从而使离线强化学习(Offline RL)能够以远少于均匀回放所需的梯度更新次数,实现安全且高性能的策略。 即使在不采集新交互数据的情况下,只要能够引入在其他领域学习到的结构化知识,更强的监督学习仍是可能的。第 4 章通过挖掘大型生成式视觉模型的内部表征来探索这一思路。尽管文本生成图像(Text-to-image)的扩散主干网络是为了图像合成而非控制任务训练的,但其积累的多尺度空间与语义线索在机器人数据集中极难从零开始习得。通过冻结这些主干网络并将其多层激活值投射至一种易于控制的嵌入空间——我们称之为稳定控制表征(Stable Control Representations, SCRs)——智能体便可获得关于物体几何形状和语言对齐的丰富归纳先验。在操纵任务和开放词汇导航任务中,SCRs 将达到预设回报所需的梯度步数降低了多达一个数量级,且表现一致优于对比学习训练的编码器,且全过程无需生成任何额外像素。该结果表明,重用预训练知识可将计算昂贵的探索过程转化为廉价的表征重用,从而显著提升样本效率。 虽然上述章节侧重于学习的效率,但部署后的智能体还必须能够利用跨越数小时或数天的上下文进行高效决策。第 5 章引入了 Memo,这是一种 Transformer 策略架构,它通过在流式观测中交替插入周期性的摘要令牌(Summary tokens),使记忆容量随任务长度平缓增长。为了评估此类长程推理能力,第 6 章贡献了 FindingDory——一个可程序化扩展的基准测试家族,包含 60 个任务,旨在探测具身智能体存储与检索经验的能力。 综上所述,这些工作共同规划了一条清晰的路径,即构建学习迅速、承袭丰富先验且具备关键记忆能力的智能体,向真正的终身自进化智能迈出了坚实的一步。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
《多智能体强化学习:复杂系统评估方法与应用》143页
专知会员服务
40+阅读 · 2025年5月27日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
多智能体深度强化学习的若干关键科学问题
专知会员服务
195+阅读 · 2020年5月24日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月9日
VIP会员
相关VIP内容
《多智能体强化学习:复杂系统评估方法与应用》143页
专知会员服务
40+阅读 · 2025年5月27日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
多智能体协同决策方法研究
专知会员服务
133+阅读 · 2022年12月15日
多智能体深度强化学习的若干关键科学问题
专知会员服务
195+阅读 · 2020年5月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员