Humanoid control often leverages motion priors from human demonstrations to encourage natural behaviors. However, such demonstrations are frequently suboptimal or misaligned with robotic tasks due to embodiment differences, retargeting errors, and task-irrelevant variations, causing naïve imitation to degrade task performance. Conversely, task-only reinforcement learning admits many task-optimal solutions, often resulting in unnatural or unstable motions. This exposes a fundamental limitation of linear reward mixing in adversarial imitation learning. We propose \emph{Task-Centric Motion Priors} (TCMP), a task-priority adversarial imitation framework that treats imitation as a conditional regularizer rather than a co-equal objective. TCMP maximizes task improvement while incorporating imitation signals only when they are compatible with task progress, yielding an adaptive, geometry-aware update that preserves task-feasible descent and suppresses harmful imitation under misalignment. We provide theoretical analysis of gradient conflict and task-priority stationary points, and validate our claims through humanoid control experiments demonstrating robust task performance with consistent motion style under noisy demonstrations.


翻译:人形机器人控制常利用人类演示的运动先验来促进自然行为。然而,由于本体差异、重定向误差以及与任务无关的变异,此类演示往往存在次优或与机器人任务未对齐的问题,导致简单模仿会降低任务性能。反之,仅基于任务的强化学习会生成大量任务最优解,但通常会产生不自然或不稳定的运动。这揭示了对抗模仿学习中线性奖励混合的根本局限性。我们提出任务中心化运动先验(TCMP),这是一种任务优先的对抗模仿框架,将模仿视为条件正则化器而非同等重要的目标。TCMP在最大化任务改进的同时,仅当模仿信号与任务进展兼容时才将其纳入,从而产生一种自适应、几何感知的更新机制,既能保持任务可行的下降方向,又能在未对齐情况下抑制有害模仿。我们提供了梯度冲突与任务优先稳定点的理论分析,并通过人形机器人控制实验验证了所提方法的有效性,实验表明在噪声演示下仍能保持稳健的任务性能与一致的运动风格。

0
下载
关闭预览

相关内容

《不确定环境下的移动任务规划研究》133页
专知会员服务
38+阅读 · 1月16日
《多领域任务导向对话的数据驱动策略优化》145页
专知会员服务
14+阅读 · 2024年5月10日
《模拟军事单元的多目标优化策略》美陆军DEVCOM SC
专知会员服务
46+阅读 · 2023年11月13日
专知会员服务
48+阅读 · 2021年7月2日
专知会员服务
25+阅读 · 2021年6月15日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员