Reinforcement learning has become the prevailing approach to humanoid locomotion control: policies transfer reliably from simulation to hardware and recover gracefully from disturbances. Motion quality, however, still lags behind: task-only rewards often converge to stiff, asymmetric gaits, while motion imitation methods improve appearance but become more sensitive to external disturbances because reference signals can oppose the transient poses needed to regain balance. We propose Predictive Style Matching, in which an offline predictor maps the robot's lower-body state history and velocity commands to interpretable upper-body joint and gait targets that shape the rewards during training. Because the targets are state-conditioned rather than time-indexed and the predictor is used only at training time, the deployed controller inherits the proprioceptive interface and inference cost of a task-only RL baseline. On the Unitree G1, in both simulation and hardware, PSM reduces upper-body style error by roughly an order of magnitude over task-only RL while preserving its fall-recovery rate, whereas the motion-imitation baseline attains the lowest style error but fails to recover from disturbances about five times as often.


翻译:强化学习已成为人形机器人运动控制的主流方法:策略能够可靠地从仿真迁移至硬件,并在受到干扰后优雅地恢复。然而,运动质量仍存在不足:仅基于任务奖励的模型往往收敛至僵硬、不对称的步态,而运动模仿方法虽能改善外观表现,却因参考信号可能对抗维持平衡所需的瞬时姿态,导致对外部干扰更为敏感。我们提出预测性风格匹配方法,其中离线预测器将机器人下肢状态历史与速度指令映射为可解读的上肢关节及步态目标参数,这些参数在训练过程中塑造奖励函数。由于目标参数基于状态条件而非时间索引,且预测器仅在训练阶段使用,部署后的控制器继承了纯任务奖励强化学习基线模型的本体感知接口与推理开销。在Unitree G1平台上,无论仿真还是实体实验,预测性风格匹配相比纯任务奖励方法可将上肢风格误差降低约一个数量级,同时保持其跌倒恢复率;而运动模仿基线虽能达到最低风格误差,但其干扰恢复失败频率却高出约五倍。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
人形机器人行业深度:具身智能,迈向广阔蓝海市场
专知会员服务
51+阅读 · 2023年7月2日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
专知会员服务
66+阅读 · 2021年4月22日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员