Running up stairs is effortless for humans but remains extremely challenging for humanoid robots due to the simultaneous requirements of high agility and strict stability. Model-free reinforcement learning (RL) can generate dynamic locomotion, yet implicit stability rewards and heavy reliance on task-specific reward shaping tend to result in unsafe behaviors, especially on stairs; conversely, model-based foothold planners encode contact feasibility and stability structure, but enforcing their hard constraints often induces conservative motion that limits speed. We present FastStair, a planner-guided, multi-stage learning framework that reconciles these complementary strengths to achieve fast and stable stair ascent. FastStair integrates a parallel model-based foothold planner into the RL training loop to bias exploration toward dynamically feasible contacts and to pretrain a safety-focused base policy. To mitigate planner-induced conservatism and the discrepancy between low- and high-speed action distributions, the base policy was fine-tuned into speed-specialized experts and then integrated via Low-Rank Adaptation (LoRA) to enable smooth operation across the full commanded-speed range. We deploy the resulting controller on the Oli humanoid robot, achieving stable stair ascent at commanded speeds up to 1.65 m/s and traversing a 33-step spiral staircase (17 cm rise per step) in 12 s, demonstrating robust high-speed performance on long staircases. Notably, the proposed approach served as the champion solution in the Canton Tower Robot Run Up Competition.


翻译:跑楼梯对人类而言轻而易举,但对人形机器人来说却极具挑战,因为它同时要求高度的敏捷性和严格的稳定性。无模型强化学习能够生成动态运动,但隐式的稳定性奖励和对任务特定奖励设计的严重依赖往往导致不安全行为,尤其在楼梯上;相反,基于模型的落脚点规划器编码了接触可行性和稳定性结构,但强制执行其硬约束通常会引发限制速度的保守运动。我们提出了FastStair,一个规划器引导的多阶段学习框架,它融合了这些互补的优势,以实现快速稳定的上楼梯运动。FastStair将一个并行的基于模型的落脚点规划器集成到强化学习训练循环中,以引导探索朝向动态可行的接触,并预训练一个注重安全的基础策略。为了减轻规划器导致的保守性以及低速与高速动作分布之间的差异,基础策略被微调为速度特化的专家策略,然后通过低秩自适应进行集成,以实现整个指令速度范围内的平滑操作。我们将最终控制器部署在Oli人形机器人上,实现了指令速度高达1.65 m/s的稳定上楼梯,并在12秒内穿越了一个33级的螺旋楼梯(每级台阶高17厘米),展示了在长楼梯上鲁棒的高速性能。值得注意的是,所提出的方法是广州塔机器人跑楼梯竞赛的冠军解决方案。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Cornell大学】机器人学习课程
专知会员服务
24+阅读 · 2024年11月11日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员