实现自主且通用的机器人智能,需要系统能够理解复杂物理、适应新任务,并在真实世界中执行精确而鲁棒的控制。传统方法往往将这些挑战孤立处理,从而导致系统专门化且脆弱。本论文提出的核心观点是:生成式建模为应对这一系列机器人挑战提供了一个强大、可扩展且统一的框架。我们通过将生成式原则应用于三个彼此不同但具有基础性的任务来证明这一点:物理仿真、任务适应和灵巧控制。
首先,我们解决复杂物理仿真中的计算瓶颈问题。我们开发了一种新颖的、完全可微的流固耦合(Fluid-Structure Interaction, FSI)混合仿真器。通过将快速的基于物理的固体仿真器(可微投影动力学,Differentiable Projective Dynamics)与用于水动力学的学习型神经代理模型相结合,我们实现了对软体水下游动机器人控制器的高效、基于梯度的优化。
其次,我们将这一生成式概念提升到对学习本身进行建模的层面。我们将元学习重新表述为一个条件生成式建模问题,即生成策略模型的参数。我们提出了两种方法 HyperCLIP 和 HyperLDM,它们借鉴图像合成中的技术(分类器引导与扩散模型),仅以自然语言指令为条件,以零样本方式生成高性能、任务特定的网络权重。 最后,我们将这些原则应用于真实世界灵巧操作这一挑战。我们提出了 mimic-one,这是一套面向通用灵巧性的可扩展方案。该系统将一种新型 16 自由度(16-DoF)腱驱动仿人手与生成式扩散策略相结合。该策略基于多模态数据进行端到端训练,能够学习复杂、接触密集型任务,并展现出关键的涌现式自我纠正行为。 实现真实世界中智能、自主且可适应的机器人行为,仍然是工程领域最重大的挑战之一。机器人必须能够在非结构化环境中运行,通过高维且常常带有噪声的传感器感知周围环境,与复杂且不可预测的物理动态交互,并将其技能泛化到此前从未遇到过的新任务和新情境中。
传统机器人方法往往将这些挑战孤立处理,分别为感知、规划、控制和学习开发独立的专门化系统。这种碎片化会导致系统脆弱且复杂,难以将这些组件无缝整合起来,并且在面对真实世界的模糊性和多变性时常常失效。一个能够感知环境却无法与其物理复杂性交互的系统,或者一个能够执行预编程任务却无法适应新指令的系统,本质上都是受限的。
近年来,生成式建模领域已成为一种强大的范式,为应对这些多样化挑战提供了一个潜在的统一框架。这些模型最初因其在合成高保真数据(如图像、音频和文本)方面取得的惊人成就而广受关注,它们擅长学习复杂的概率分布。这一基础能力远远超越了单纯的合成。原则上,生成模型可以学习任何数据模态的分布:从物理系统可能的演化过程,到有效控制策略的空间,再到复杂、接触密集型操作技能中的运动指令序列。 本论文主张,这种“生成优先”的视角并不仅仅是某一单一子领域的工具,而是一项基础性技术,能够为构建下一代智能机器人提供一种可扩展、数据驱动且一体化的方法。我们认为,机器人领域中若干关键且长期存在的瓶颈——从复杂物理仿真的难以处理,到任务适应的僵化,再到灵巧控制本身的高度复杂性——都可以通过将其重新表述为条件生成式建模问题而得到有效克服。
本工作并非设计碎片化、专用化的模块,而是研究如何将一个统一的计算引擎——一个能够学习生成、预测和适应的引擎——应用于这一系列挑战。我们将展示这种方法如何解锁新的能力:从复杂物理的仿真,到任务的抽象适应,最终实现真实世界中高自由度灵巧硬件的控制。
本论文认为,生成优先的方法是必要的,因为传统的碎片化方法已经遭遇了根本性障碍。我们识别出机器人领域中的三个关键瓶颈。
机器人领域的一个主要挑战,是设计和控制那些必须与复杂真实世界物理交互的系统。对于软体机器人等领域而言,这涉及对流固耦合(Fluid-Structure Interaction, FSI)等困难现象进行建模。用于此类分析的黄金标准——如有限元方法(Finite Element Method, FEM)等高保真数值求解器——以计算开销巨大而著称,且往往昂贵到令人难以承受。一次仅捕捉几秒钟行为的仿真可能需要数小时甚至数天才能完成。 这种仿真瓶颈使得这些求解器在任何需要快速且反复评估的任务中都不切实际,例如控制器优化、强化学习,或机器人机体与控制器的协同设计。此外,这些传统求解器通常是不可微的“黑箱”系统,迫使设计者依赖缓慢、低效的无梯度优化方法。本论文探索一种新的范式:使用物理信息神经网络作为生成式代理模型。这些模型能够以极低成本学习生成物理动态(例如流体压力场),并且由于其本质上是神经网络,因此完全可微,从而首次为高效的基于梯度的优化打开了可能。
第二个更普遍的挑战位于机器学习的核心:任务适应。“学会学习”(learning to learn),即元学习,其目标是创建能够高效泛化并适应新任务的模型。长期以来,主导范式是以模型无关元学习(Model-Agnostic Meta-Learning, MAML)为代表的少样本适应方法。这些方法学习一个高度“可塑”的参数初始化,使模型能够利用少量新的有标注样本支持集快速微调到新任务上。 然而,这种方法存在一个关键限制:它在部署时仍然需要数据收集和基于梯度的更新步骤。对于可能需要立即适应新颖指令的自主智能体(例如机器人)而言,这是一个根本性瓶颈。因此,本论文关注一个更具雄心的目标:零样本适应。我们研究是否可以将元学习重新表述为一个条件生成问题:模型是否能够仅根据高层描述(例如自然语言指令),直接为一个未见任务生成高性能模型权重,而无需任何新数据或梯度步骤?
最后,本工作关注机器人领域的一项重大挑战:灵巧操作问题。从简单夹爪迈向高自由度、类人手,需要将多模态感知(例如来自多个视角的视觉、来自关节状态的本体感知)与所有关节上的高频、时间一致的动作序列生成无缝整合起来。传统意义上的模仿学习,或行为克隆(Behavioral Cloning, BC),在这一场景下是不充分的。
行为克隆将控制视为一个简单的监督回归问题,即从观测到动作的映射,并存在两个众所周知的缺陷。第一是分布偏移:在测试时,策略不可避免的小执行误差会逐渐累积,将其带入专家从未访问过的状态。由于该策略并未接受如何从这些状态中恢复的训练,误差会级联放大,最终导致失败。第二是动作多模态性:对于任何复杂任务而言,从单个状态出发往往存在多个同样有效的专家动作(例如从侧面抓取瓶子,或从顶部抓取瓶子)。标准回归损失(如 MSE)会学习输出这些有效动作的平均值,而这个平均动作本身可能是毫无意义且错误的动作(例如瞄准侧面与顶部之间的空隙),从而使模型无法学习清晰、接触密集型的行为。
本论文认为,这三个看似彼此不同的瓶颈并非相互独立的问题,而事实上是同一个底层挑战的不同表现:模型需要有效管理复杂性、不确定性和高维数据。我们提出,生成式建模为同时应对这三者提供了一个强大而统一的框架。本工作不再依赖碎片化的临时性解决方案,而是将每一个挑战都重新表述为条件生成问题。
为解决仿真瓶颈,我们超越传统数值求解器,将物理仿真视为一项生成任务。我们不再迭代求解偏微分方程,而是提出学习一个神经代理模型,用于生成物理系统状态的演化,例如流体的压力场和速度场。 这种生成式方法具有两个变革性优势。第一,它极其快速,因为一次神经网络前向传播即可替代昂贵的迭代求解过程。第二,所得模型在构造上就是完全可微的,从而使高效的基于梯度的方法能够用于优化和协同设计,而这在黑箱求解器中原本是难以实现的。
为克服少样本适应的限制,我们将元学习本身重新表述为一个生成问题。与学习一个用于后续微调的初始化(如 MAML)不同,我们提出学习一个能够直接生成神经网络参数的生成模型。在这一范式中,模型学习的是一个以任务高层描述为条件的权重空间分布。通过以自然语言指令作为该生成过程的条件,我们可以实现真正的零样本任务适应:在部署时不需要任何新数据或梯度步骤,即可为新任务生成一个专门化的高性能神经网络。
为解决灵巧控制瓶颈,我们摒弃传统行为克隆中基于回归的标准方法。相反,我们将多模态、高频控制表述为一个条件生成式建模问题,具体而言使用扩散模型。该方法不再学习一个确定性映射 π(a|o),因为这种映射只会产生单一的、被平均化且错误的动作;相反,它学习建模所有有效专家动作的完整分布 p(a|o)。 在推理时,策略可以通过从这一学习到的分布中采样,生成完整且时间一致的动作序列。这一方法直接解决了动作多模态性问题,并且正如我们将展示的,它能够产生天然更鲁棒的策略,表现出涌现式的自我纠正行为,而这对于真实世界运行至关重要。
为验证我们的中心论点,本工作提出了三项彼此不同的主要贡献,它们直接对应上述瓶颈。每一项贡献都利用“生成模型优先”的视角,开发新的模型、算法或系统,并展示其解决仿真、适应或控制中基础问题的能力。
为解决仿真瓶颈,我们开发了一种新颖的、完全可微的混合仿真器,用于复杂流固耦合(FSI)问题。这一内容在第 3 章中介绍。 • 方法论:我们的混合方法的独特之处在于,它耦合了两种不同的仿真范式。对于机器人身体的可变形固体力学,我们使用一种快速、基于物理且可微的求解器,即可微投影动力学(Differentiable Projective Dynamics, DiffPD)。对于计算上难以处理的流体动力学,我们用一个学习得到的神经网络代理模型替代传统数值求解器。该神经网络通过物理信息损失进行训练,并作为生成模型运行,以极低计算成本预测流体的压力场和速度场。通过耦合这两个组件,整个仿真流水线实现了端到端可微。 • 结果:我们证明,该混合仿真器比传统高保真 FEM 求解器(COMSOL)快数个数量级,同时保持单调的性能关系,证明了其作为优化代理模型的可行性。随后,我们利用其核心优势——可微性——对软体水下游动机器人的控制策略进行直接的、基于梯度的优化。这展示了一条新的机器人设计路径,使机器人身体与控制器的高效协同优化成为可能,而这一任务此前是难以处理的。
为克服少样本适应的限制,我们将元学习重新表述为条件生成式建模问题。在第 4 章中,我们提出两种新方法 HyperCLIP 和 HyperLDM,它们能够根据语言指令生成神经网络参数。
• 方法论:我们的方法将高保真图像合成中的强大技术——即基于 CLIP 的分类器引导和无分类器扩散——迁移到神经网络抽象且高维的权重空间中。与以文本为条件生成像素不同,我们的模型学习仅以自然语言任务描述为条件,为新任务生成整套模型参数(权重)。HyperCLIP 使用一个经过对比训练的编码器来引导潜空间搜索,而 HyperLDM 则使用完整的去噪扩散模型从纯噪声中生成权重。
• 结果:我们在新提出的 MetaVQA 数据集上验证了该方法。我们表明,通过将适应视为生成问题,我们的方法在具有挑战性的零样本设置中优于传统元学习基线(如 MAML)。这证实了我们的假设:可以根据高层指令按需生成高性能、任务特定的神经网络权重,从而完全绕过部署时基于梯度的微调需求。
最后,我们整合这些思想,以应对真实世界灵巧操作这一重大挑战。在第 5 章中,我们提出 mimic-one,这是一套可扩展且一体化的“模型方案”(model recipe),统一了硬件、数据与生成式控制策略。
• 方法论:这一贡献是一个完整系统,包含:(1)一种新型 16 自由度(16-DoF)腱驱动仿人机器人手,专门针对学习所需的顺应性和高维性而设计;(2)一个使用现代 VR 接口的可扩展遥操作流水线,用于高效且高质量的数据采集;(3)一个高频生成式控制策略。该策略基于扩散模型进行构建,并通过端到端训练,在多模态传感输入(视觉和本体感知)的条件下生成时间一致的未来动作“片段”(chunks)。
• 结果:我们证明,该系统能够利用适量示范数据学习复杂、接触密集型任务,例如电池插入和可变形物体操作。最重要的是,我们表明,所得扩散策略通过学习有效动作的完整分布,展现出涌现式的自我纠正行为。当机器人手出现小误差,例如抓取时轻微失手,策略能够从学习到的分布中自然采样出恢复动作——这是鲁棒性的关键组成部分,也直接解决了困扰传统行为克隆的“分布偏移”和“动作多模态性”问题。