【CMU博士论文】通过上下文学习实现通用机器人控制

大多数机器人策略都需要针对特定任务和具身形态进行繁琐调优，这导致它们记忆了高度专门化的控制策略。在部署阶段，它们不可避免地会遇到未见过的场景，而先前记忆的策略将不再有效。机器人缺乏适应能力，从而导致灾难性失败。在本论文中，我们探讨了一条学习通用策略的路径，使其能够抵抗失败，并在面对未见场景时实现自适应。首先，我们表明，扩大在线强化学习的规模能够在多个领域中产生鲁棒技能，包括感知式运动、跑酷、灵巧操作、导航以及全身控制。这些系统展示了一种早期形式的从上下文中学习的能力：它们利用一段很短的观测历史（< 0.5 秒）来适应环境变化。然而，这些系统仍然专门针对特定具身形态，无法适应诸如腿部损坏、电机烧毁，甚至更严重故障等极端变化。我们认为，在多样且平滑的任务空间上进行大规模训练，并结合长上下文记忆，会迫使模型学习泛化的、“元”控制策略。由此得到的控制器可以部署到任何具身形态上，甚至包括那些远超训练集分布范围的具身形态。我们观察到涌现出的上下文学习能力：这些策略在测试时使用长达 18 秒的记忆进行自适应。记忆可以跨越多次试验；当面对极端场景时，策略会从早期失败中学习，并在后续试验中改进表现。最后，我们表明，当前强化学习算法在大规模并行化设置下的扩展性较差。我们提出了一种新方法，使得在非常大的连续动作空间中，仅依靠简单任务奖励即可学习复杂行为，而在这些场景下以往方法往往会失败。最有用的机器人，是那些无需针对具体任务编程，就能在多种环境中执行多种任务的机器人。这要求它们在规划、感知和控制等方面具备熟练能力。它们必须理解周围环境，决定采取何种动作，并在物理世界中可靠地执行这些动作。尽管我们已经在人工智能的其他领域看到了通用规划 [27] 和通用感知 [111, 182] 的证据，但通用控制仍然难以实现。当前的范式是为特定任务和具身形态训练专用控制器。这些控制器通常是容量较低的小型神经网络，会记忆高度专门化的控制策略，因而难以泛化。例如，在图 1.1 中，该策略是一个上下文长度有限的小型 RNN，用于训练一个特定具身形态的运动控制：Unitree Go2 四足机器人。其步态依赖膝关节来实现运动并维持平衡。当这些膝关节被禁用时，控制器仍然不断尝试使用同样的步态，最终失去平衡并摔倒。一般而言，当机器人部署到现实环境中时，它们不可避免地会遇到这类分布外（OOD）场景，并发生灾难性失败。我们可以将控制泛化划分为两个层次。第一层是鲁棒性，即适应环境和机器人动力学中小幅变化的能力。例如，一个鲁棒的控制器在突然遇到湿滑地面或感知能力退化时，仍应能够继续行走。第二层则更为广泛，涵盖了适应全新任务和具身形态的能力，例如一条腿完全失效（图 1.1），或一种训练时从未见过的新型机器人。在本论文中，我们展示了如何通过扩大训练规模来实现这两个层次的泛化。在第一部分中，我们表明，与经典方法不同，大规模在线强化学习可以在多个领域中产生鲁棒技能，例如感知式运动 [5]、跑酷 [42]、灵巧操作 [7] 和导航 [226]。在第二部分中，我们表明，现有强化学习算法随着并行环境数量的增加而扩展性较差，并提出了一种具有更优扩展性质的新方法 [205]。最后，我们展示了如何将第一部分提出的技术进一步扩展，用于训练真正能够进行上下文自适应的通用控制器 [130]，并能泛化到图 1.1 所示的场景。

第一部分：通过大规模强化学习学习鲁棒技能

经典技术，如运动规划和基于模型的控制，已经能够在运动 [20, 52, 185]、操作 [187] 和导航 [158] 等任务中展示出卓越的控制行为。然而，这些系统通常经过大量工程设计，且较为脆弱，往往难以泛化到新场景。以基于模型的运动控制为例，控制器会遵循一个人工定义的步态。控制命令通常通过粗略模型上的短时域规划生成，而这些模型往往假设地面是平坦且刚性的 [20, 52]。当机器人遇到岩石地面或松软地面等场景时，模型变得不准确，控制器便会失效 [117]。在引入视觉后，这一问题会进一步加剧。经典方法通常将感知和控制解耦为独立模块。感知模块通过传感器融合或 SLAM 类方法持续构建环境地图。随后，系统在该地图上规划落脚点，并由基于模型的控制器进行跟踪 [61, 102, 109]。然而，在烟雾、雾气等感知受损的场景中，或在机器人自身剧烈晃动时，地图会出现大量伪影，进而导致控制器失败 [5]。在本部分中，我们表明，通过在线强化学习训练端到端控制器，可以获得显著鲁棒的技能。在 Agarwal 等人 [5] 的工作中，我们训练了一个从像素到关节命令的单一端到端神经网络。这使我们能够将其部署到一台仅配备单个深度相机、成本约 3000 美元的廉价机器狗上，同时对各种地形保持鲁棒，包括踏脚石、楼梯和间隙等。在后续工作中，我们将这一方法扩展到高度动态的跑酷任务 [42]，并观察到自然且高度动态的步态，而这些步态很难通过人工编程实现。我们表明，该方法具有通用性，并可扩展到导航 [67] 和富接触灵巧操作任务 [7]。我们还展示了如何通过可供性作为控制接口，将这类控制器与高层感知系统结合起来。在 SPIN [226] 中，我们表明，该方法可以用于训练一个单一控制器，使其同时结合全身操作、避障和主动感知能力。

第二部分：扩展在线强化学习的技术

上述方法简单且通用，因此一个自然的问题是：随着规模不断增大，我们是否会持续获得新的能力。扩展在线强化学习的标准方式，是增加更多并行训练环境，并使用大批量进行训练。我们表明，由于探索能力不足，这种方法的扩展性较差 [205]。策略通常是单峰高斯分布，rollout 则是从该策略中独立同分布采样得到的。在低规模情形下，增大批量大小会带来方差更低的估计，从而改善学习。然而，由于大多数样本都靠近均值，当规模足够大时，方差降低带来的边际性能提升，相比于探索状态空间中不同区域所可能带来的收益，已经变得微不足道。在 Split and Aggregate Policy Gradients [205] 中，我们不再让单个学习器运行在所有环境上，而是将环境划分为多个批次，并在每个批次中运行独立的学习器（图 1.2）。随后，我们将所有学习器的经验聚合到一个单一的主策略中。我们发现，这一方法在多种环境中都能带来显著更高的渐近性能，包括尤其具有挑战性的双手灵巧操作任务；在这些任务中，PPO 几乎无法取得进展。

第三部分：通过上下文学习实现通用控制

在这一部分中，我们展示了如何通过扩展第一部分提出的技术，解锁第二层次的泛化能力。我们提出了 Locoformer，这是一种通用运动控制器，能够控制任意机器人，甚至包括远远超出训练集范围的机器人。它能够适应诸如腿部损坏、电机烧毁甚至更严重的极端变化 [130]。该模型完全通过涌现出的上下文学习来实现这一点，这与大语言模型进行少样本学习的方式相呼应。该方向的先前工作最多只在少数几种不同具身形态上进行训练。这使得模型本质上可以学习一种“专家混合”（mixture-of-experts）策略，其中每个专家都是过拟合到某一特定具身形态的控制器，因此不会涌现出真正的自适应能力。我们的第一个洞见是，改为在一个包含 100000 个程序生成机器人的大规模任务空间上训练单一策略，并使用 1000 年模拟时间进行训练。这是一个宽广且平滑变化的任务空间，因此为每个机器人学习 MoE 类型控制器是不可行的。唯一可行的解决方案，是学习用于在测试时适应任意新机器人的“元”控制策略。这些策略具有更广泛的实用性，使网络能够适应未见过的机器人，以及训练时从未经历过的 OOD 变化。即使在前文较早部分中，例如感知式运动 [5]，我们也已经看到了上下文学习的雏形。在那里，我们提出了两种架构：第一种包含一个显式自适应模块 [117]，该模块被训练为在线估计动力学参数。但我们也发现，一个简单的循环网络能够达到相同性能。它仅凭一段很短的观测历史（<0.5 秒），就能学会适应摩擦变化或岩石等情况。然而，循环架构无法扩展到大规模任务空间，因为 0.5 秒的历史不足以包含进行自适应所需的信息。我们的第二个洞见是使用具有 18 秒上下文的 Transformer-XL 架构 [49]。借助这一架构，尽管模型是在 100K 个机器人上训练的，但它仍能达到在单个机器人上训练的专用模型的性能，并且能够在真实世界中的 OOD 场景下表现良好，例如膝关节损坏、腿部被截断，甚至面对全新的机器人。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【CMU博士论文】《生成式机器人：用于人机协同创作的自监督学习》

专知会员服务

15+阅读 · 2025年11月27日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

14+阅读 · 2025年5月23日

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

19+阅读 · 2025年3月11日