Humanoid control often leverages motion priors from human demonstrations to encourage natural behaviors. However, such demonstrations are frequently suboptimal or misaligned with robotic tasks due to embodiment differences, retargeting errors, and task-irrelevant variations, causing naïve imitation to degrade task performance. Conversely, task-only reinforcement learning admits many task-optimal solutions, often resulting in unnatural or unstable motions. This exposes a fundamental limitation of linear reward mixing in adversarial imitation learning. We propose \emph{Task-Centric Motion Priors} (TCMP), a task-priority adversarial imitation framework that treats imitation as a conditional regularizer rather than a co-equal objective. TCMP maximizes task improvement while incorporating imitation signals only when they are compatible with task progress, yielding an adaptive, geometry-aware update that preserves task-feasible descent and suppresses harmful imitation under misalignment. We provide theoretical analysis of gradient conflict and task-priority stationary points, and validate our claims through humanoid control experiments demonstrating robust task performance with consistent motion style under noisy demonstrations.


翻译:人形机器人控制常利用人类演示的运动先验来促进自然行为。然而,由于本体差异、重定向误差以及与任务无关的变异,此类演示往往存在次优或与机器人任务不匹配的问题,导致简单模仿会降低任务性能。相反,仅基于任务的强化学习会产生许多任务最优解,但通常会导致不自然或不稳定的运动。这揭示了对抗模仿学习中线性奖励混合的根本局限性。我们提出\textbf{任务中心运动先验}(TCMP),这是一种任务优先的对抗模仿框架,将模仿视为条件正则化器而非同等重要的目标。TCMP在最大化任务改进的同时,仅当模仿信号与任务进展兼容时才将其纳入,从而产生一种自适应的、几何感知的更新方法,该方法能保留任务可行的下降方向,并在不匹配情况下抑制有害的模仿。我们对梯度冲突和任务优先驻点进行了理论分析,并通过人形机器人控制实验验证了我们的主张,实验表明在噪声演示下能实现稳健的任务性能并保持一贯的运动风格。

0
下载
关闭预览

相关内容

《不确定环境下的移动任务规划研究》133页
专知会员服务
38+阅读 · 1月16日
《基于优化的复杂多无人机任务自动分配技术》
专知会员服务
32+阅读 · 2025年8月29日
《模拟军事单元的多目标优化策略》美陆军DEVCOM SC
专知会员服务
46+阅读 · 2023年11月13日
《人机协作决策优化》142页博士论文
专知会员服务
179+阅读 · 2023年7月16日
专知会员服务
25+阅读 · 2021年6月15日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员