强化学习的研究范畴已从桌面模拟器拓展至真实机器人及开放世界游戏。然而,当前的智能体在学习过程中仍面临样本效率极低、忽视基座模型中所编码的先验知识,以及在数百步操作后即遗忘大部分既往经验等挑战。本论文围绕一个统一的议题——高效地训练高效的决策智能体——展开,并提出了三项连续的研究贡献。 第 3 章表明,通过针对最具信息量的状态转移(Transitions)进行经验重加权,可以显著提升样本效率。一种基于集成(Ensemble)的不确定性准则能够选择性地对那些有助于阐明因果结构的稀疏交互进行上采样,从而使离线强化学习(Offline RL)能够以远少于均匀回放所需的梯度更新次数,实现安全且高性能的策略。 即使在不采集新交互数据的情况下,只要能够引入在其他领域学习到的结构化知识,更强的监督学习仍是可能的。第 4 章通过挖掘大型生成式视觉模型的内部表征来探索这一思路。尽管文本生成图像(Text-to-image)的扩散主干网络是为了图像合成而非控制任务训练的,但其积累的多尺度空间与语义线索在机器人数据集中极难从零开始习得。通过冻结这些主干网络并将其多层激活值投射至一种易于控制的嵌入空间——我们称之为稳定控制表征(Stable Control Representations, SCRs)——智能体便可获得关于物体几何形状和语言对齐的丰富归纳先验。在操纵任务和开放词汇导航任务中,SCRs 将达到预设回报所需的梯度步数降低了多达一个数量级,且表现一致优于对比学习训练的编码器,且全过程无需生成任何额外像素。该结果表明,重用预训练知识可将计算昂贵的探索过程转化为廉价的表征重用,从而显著提升样本效率。 虽然上述章节侧重于学习的效率,但部署后的智能体还必须能够利用跨越数小时或数天的上下文进行高效决策。第 5 章引入了 Memo,这是一种 Transformer 策略架构,它通过在流式观测中交替插入周期性的摘要令牌(Summary tokens),使记忆容量随任务长度平缓增长。为了评估此类长程推理能力,第 6 章贡献了 FindingDory——一个可程序化扩展的基准测试家族,包含 60 个任务,旨在探测具身智能体存储与检索经验的能力。 综上所述,这些工作共同规划了一条清晰的路径,即构建学习迅速、承袭丰富先验且具备关键记忆能力的智能体,向真正的终身自进化智能迈出了坚实的一步。