大多数机器人策略都需要针对特定任务和具身形态进行繁琐调优,这导致它们记忆了高度专门化的控制策略。在部署阶段,它们不可避免地会遇到未见过的场景,而先前记忆的策略将不再有效。机器人缺乏适应能力,从而导致灾难性失败。 在本论文中,我们探讨了一条学习通用策略的路径,使其能够抵抗失败,并在面对未见场景时实现自适应。首先,我们表明,扩大在线强化学习的规模能够在多个领域中产生鲁棒技能,包括感知式运动、跑酷、灵巧操作、导航以及全身控制。这些系统展示了一种早期形式的从上下文中学习的能力:它们利用一段很短的观测历史(< 0.5 秒)来适应环境变化。 然而,这些系统仍然专门针对特定具身形态,无法适应诸如腿部损坏、电机烧毁,甚至更严重故障等极端变化。我们认为,在多样且平滑的任务空间上进行大规模训练,并结合长上下文记忆,会迫使模型学习泛化的、“元”控制策略。 由此得到的控制器可以部署到任何具身形态上,甚至包括那些远超训练集分布范围的具身形态。我们观察到涌现出的上下文学习能力:这些策略在测试时使用长达 18 秒的记忆进行自适应。记忆可以跨越多次试验;当面对极端场景时,策略会从早期失败中学习,并在后续试验中改进表现。 最后,我们表明,当前强化学习算法在大规模并行化设置下的扩展性较差。我们提出了一种新方法,使得在非常大的连续动作空间中,仅依靠简单任务奖励即可学习复杂行为,而在这些场景下以往方法往往会失败。 最有用的机器人,是那些无需针对具体任务编程,就能在多种环境中执行多种任务的机器人。这要求它们在规划、感知和控制等方面具备熟练能力。它们必须理解周围环境,决定采取何种动作,并在物理世界中可靠地执行这些动作。尽管我们已经在人工智能的其他领域看到了通用规划 [27] 和通用感知 [111, 182] 的证据,但通用控制仍然难以实现。 当前的范式是为特定任务和具身形态训练专用控制器。这些控制器通常是容量较低的小型神经网络,会记忆高度专门化的控制策略,因而难以泛化。例如,在图 1.1 中,该策略是一个上下文长度有限的小型 RNN,用于训练一个特定具身形态的运动控制:Unitree Go2 四足机器人。其步态依赖膝关节来实现运动并维持平衡。当这些膝关节被禁用时,控制器仍然不断尝试使用同样的步态,最终失去平衡并摔倒。一般而言,当机器人部署到现实环境中时,它们不可避免地会遇到这类分布外(OOD)场景,并发生灾难性失败。 我们可以将控制泛化划分为两个层次。第一层是鲁棒性,即适应环境和机器人动力学中小幅变化的能力。例如,一个鲁棒的控制器在突然遇到湿滑地面或感知能力退化时,仍应能够继续行走。第二层则更为广泛,涵盖了适应全新任务和具身形态的能力,例如一条腿完全失效(图 1.1),或一种训练时从未见过的新型机器人。 在本论文中,我们展示了如何通过扩大训练规模来实现这两个层次的泛化。在第一部分中,我们表明,与经典方法不同,大规模在线强化学习可以在多个领域中产生鲁棒技能,例如感知式运动 [5]、跑酷 [42]、灵巧操作 [7] 和导航 [226]。在第二部分中,我们表明,现有强化学习算法随着并行环境数量的增加而扩展性较差,并提出了一种具有更优扩展性质的新方法 [205]。最后,我们展示了如何将第一部分提出的技术进一步扩展,用于训练真正能够进行上下文自适应的通用控制器 [130],并能泛化到图 1.1 所示的场景。

第一部分:通过大规模强化学习学习鲁棒技能

经典技术,如运动规划和基于模型的控制,已经能够在运动 [20, 52, 185]、操作 [187] 和导航 [158] 等任务中展示出卓越的控制行为。然而,这些系统通常经过大量工程设计,且较为脆弱,往往难以泛化到新场景。 以基于模型的运动控制为例,控制器会遵循一个人工定义的步态。控制命令通常通过粗略模型上的短时域规划生成,而这些模型往往假设地面是平坦且刚性的 [20, 52]。当机器人遇到岩石地面或松软地面等场景时,模型变得不准确,控制器便会失效 [117]。 在引入视觉后,这一问题会进一步加剧。经典方法通常将感知和控制解耦为独立模块。感知模块通过传感器融合或 SLAM 类方法持续构建环境地图。随后,系统在该地图上规划落脚点,并由基于模型的控制器进行跟踪 [61, 102, 109]。然而,在烟雾、雾气等感知受损的场景中,或在机器人自身剧烈晃动时,地图会出现大量伪影,进而导致控制器失败 [5]。 在本部分中,我们表明,通过在线强化学习训练端到端控制器,可以获得显著鲁棒的技能。在 Agarwal 等人 [5] 的工作中,我们训练了一个从像素到关节命令的单一端到端神经网络。这使我们能够将其部署到一台仅配备单个深度相机、成本约 3000 美元的廉价机器狗上,同时对各种地形保持鲁棒,包括踏脚石、楼梯和间隙等。在后续工作中,我们将这一方法扩展到高度动态的跑酷任务 [42],并观察到自然且高度动态的步态,而这些步态很难通过人工编程实现。 我们表明,该方法具有通用性,并可扩展到导航 [67] 和富接触灵巧操作任务 [7]。我们还展示了如何通过可供性作为控制接口,将这类控制器与高层感知系统结合起来。在 SPIN [226] 中,我们表明,该方法可以用于训练一个单一控制器,使其同时结合全身操作、避障和主动感知能力。

第二部分:扩展在线强化学习的技术

上述方法简单且通用,因此一个自然的问题是:随着规模不断增大,我们是否会持续获得新的能力。扩展在线强化学习的标准方式,是增加更多并行训练环境,并使用大批量进行训练。我们表明,由于探索能力不足,这种方法的扩展性较差 [205]。 策略通常是单峰高斯分布,rollout 则是从该策略中独立同分布采样得到的。在低规模情形下,增大批量大小会带来方差更低的估计,从而改善学习。然而,由于大多数样本都靠近均值,当规模足够大时,方差降低带来的边际性能提升,相比于探索状态空间中不同区域所可能带来的收益,已经变得微不足道。 在 Split and Aggregate Policy Gradients [205] 中,我们不再让单个学习器运行在所有环境上,而是将环境划分为多个批次,并在每个批次中运行独立的学习器(图 1.2)。随后,我们将所有学习器的经验聚合到一个单一的主策略中。我们发现,这一方法在多种环境中都能带来显著更高的渐近性能,包括尤其具有挑战性的双手灵巧操作任务;在这些任务中,PPO 几乎无法取得进展。

第三部分:通过上下文学习实现通用控制

在这一部分中,我们展示了如何通过扩展第一部分提出的技术,解锁第二层次的泛化能力。我们提出了 Locoformer,这是一种通用运动控制器,能够控制任意机器人,甚至包括远远超出训练集范围的机器人。它能够适应诸如腿部损坏、电机烧毁甚至更严重的极端变化 [130]。该模型完全通过涌现出的上下文学习来实现这一点,这与大语言模型进行少样本学习的方式相呼应。 该方向的先前工作最多只在少数几种不同具身形态上进行训练。这使得模型本质上可以学习一种“专家混合”(mixture-of-experts)策略,其中每个专家都是过拟合到某一特定具身形态的控制器,因此不会涌现出真正的自适应能力。我们的第一个洞见是,改为在一个包含 100000 个程序生成机器人的大规模任务空间上训练单一策略,并使用 1000 年模拟时间进行训练。这是一个宽广且平滑变化的任务空间,因此为每个机器人学习 MoE 类型控制器是不可行的。唯一可行的解决方案,是学习用于在测试时适应任意新机器人的“元”控制策略。这些策略具有更广泛的实用性,使网络能够适应未见过的机器人,以及训练时从未经历过的 OOD 变化。 即使在前文较早部分中,例如感知式运动 [5],我们也已经看到了上下文学习的雏形。在那里,我们提出了两种架构:第一种包含一个显式自适应模块 [117],该模块被训练为在线估计动力学参数。但我们也发现,一个简单的循环网络能够达到相同性能。它仅凭一段很短的观测历史(<0.5 秒),就能学会适应摩擦变化或岩石等情况。 然而,循环架构无法扩展到大规模任务空间,因为 0.5 秒的历史不足以包含进行自适应所需的信息。我们的第二个洞见是使用具有 18 秒上下文的 Transformer-XL 架构 [49]。借助这一架构,尽管模型是在 100K 个机器人上训练的,但它仍能达到在单个机器人上训练的专用模型的性能,并且能够在真实世界中的 OOD 场景下表现良好,例如膝关节损坏、腿部被截断,甚至面对全新的机器人。

成为VIP会员查看完整内容
2

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】协作多机器人学习算法
专知会员服务
17+阅读 · 2025年1月6日
【UIUC博士论文】《从视频中进行机器人学习》
专知会员服务
25+阅读 · 2024年12月20日
【CMU博士论文】构建自适应性强的通用机器人,248页pdf
专知会员服务
37+阅读 · 2024年6月10日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
俄罗斯无人机战线实验
专知会员服务
8+阅读 · 今天3:29
高阶网络的表示:基于图的框架综述
专知会员服务
11+阅读 · 5月14日
《作战资源再分配的作战行动数学模型构建》
专知会员服务
15+阅读 · 5月14日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员