尽管遵循硬编码指令的机器人在现实世界中已得到广泛应用,但在具有不可预见变化的非结构化环境中,学习能够自主完成不同任务的智能机器人仍然是一项关键挑战。受近期基础模型在多个领域取得成功的启发,机器人学习正经历一场范式转移:从在窄任务分布上学习“专家机器人”,转向在大规模多任务数据上学习“通用机器人”,从而实现在构型、技能和场景等不同维度的更广泛泛化。 在本论文中,我们将通用机器人学习形式化为上下文马尔可夫决策过程(Contextual Markov Decision Process),并在这一统一框架下研究了跨构型和跨技能泛化这两种问题设置(第二章)。针对这两种设置,我们提出了四种创新方法,以应对以下三大挑战:模型预训练、推理效率以及高效适配。 论文第二部分关注跨构型控制。在第六章中,我们提出了 ModuMorph,这是一种基于 Transformer 的通用控制器,它通过上下文调制(Contextual Modulation)更好地建模了最优策略如何以机器人形态为条件进行演化,从而提升了预训练效果。在第七章中,我们通过知识解耦(Knowledge Decoupling)提升了通用机器人的推理效率,即:将解决不同任务所需的知识进行解耦,并在测试时仅激活一个紧凑的专家策略来解决特定任务。我们通过超网络(Hypernetworks, HNs)的分层架构实现了知识解耦,即利用超网络生成基础网络的参数,并研究了如何通过策略蒸馏成功训练超网络。我们提出的 HyperDistill 方法结合了这两个关键组件,在达到与 ModuMorph 相当性能的同时,将推理速度显著提升了两个数量级。 论文第三部分聚焦于遵循语言指令的跨技能控制。在第八章中,我们将知识解耦原则扩展到视觉-语言-动作(VLA)模型中。VLA 模型是目前语言条件控制的主流方法,但面临推理成本高昂的问题。我们提出了 HyperVLA,通过以任务上下文为条件的超网络生成紧凑策略,并探索了提升 HyperVLA 性能的若干关键算法设计选择。实验表明,HyperVLA 的性能与部分尖端(SOTA)VLA 模型相当甚至更优,同时将推理效率提升了两个数量级。最后,在第九章中,我们研究了如何以样本和计算高效的方式,将预训练的 VLA 模型适配到包含多种不同任务的新领域。为此,我们提出了 HyperLoRA,它结合了超网络强大的表达能力与参数高效微调方法 LoRA,生成任务条件的 LoRA 参数,其表现显著优于任务无关的 LoRA 微调。 综上所述,本论文的贡献显著提升了通用机器人学习中的模型预训练、推理效率及适配性能。我们希望本文提出的核心思想,如知识解耦原则以及将超网络作为构建通用智能体的关键模块,能在未来得到更广泛的应用,助力构建机器人及其他领域中更通用、更高效的基础模型。