Humanoid control often leverages motion priors from human demonstrations to encourage natural behaviors. However, such demonstrations are frequently suboptimal or misaligned with robotic tasks due to embodiment differences, retargeting errors, and task-irrelevant variations, causing naïve imitation to degrade task performance. Conversely, task-only reinforcement learning admits many task-optimal solutions, often resulting in unnatural or unstable motions. This exposes a fundamental limitation of linear reward mixing in adversarial imitation learning. We propose \emph{Task-Centric Motion Priors} (TCMP), a task-priority adversarial imitation framework that treats imitation as a conditional regularizer rather than a co-equal objective. TCMP maximizes task improvement while incorporating imitation signals only when they are compatible with task progress, yielding an adaptive, geometry-aware update that preserves task-feasible descent and suppresses harmful imitation under misalignment. We provide theoretical analysis of gradient conflict and task-priority stationary points, and validate our claims through humanoid control experiments demonstrating robust task performance with consistent motion style under noisy demonstrations.


翻译:人形机器人控制常利用人类演示的运动先验来促进自然行为。然而,由于本体差异、重定向误差以及与任务无关的变异,此类演示往往存在次优或与机器人任务未对齐的问题,导致简单模仿会降低任务性能。反之,仅基于任务的强化学习会生成大量任务最优解,但通常会产生不自然或不稳定的运动。这揭示了对抗模仿学习中线性奖励混合的根本局限性。我们提出任务中心化运动先验(TCMP),这是一种任务优先的对抗模仿框架,将模仿视为条件正则化器而非同等重要的目标。TCMP在最大化任务改进的同时,仅当模仿信号与任务进展兼容时才将其纳入,从而产生一种自适应、几何感知的更新机制,既能保持任务可行的下降方向,又能在未对齐情况下抑制有害模仿。我们提供了梯度冲突与任务优先稳定点的理论分析,并通过人形机器人控制实验验证了所提方法的有效性,实验表明在噪声演示下仍能保持稳健的任务性能与一致的运动风格。

0
下载
关闭预览

相关内容

《基于优化的复杂多无人机任务自动分配》
专知会员服务
21+阅读 · 3月8日
《不确定环境下的移动任务规划研究》133页
专知会员服务
39+阅读 · 1月16日
《模拟军事单元的多目标优化策略》美陆军DEVCOM SC
专知会员服务
46+阅读 · 2023年11月13日
专知会员服务
48+阅读 · 2021年7月2日
专知会员服务
25+阅读 · 2021年6月15日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
【NTU博士论文】3D人体动作生成
专知会员服务
1+阅读 · 今天14:48
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
7+阅读 · 今天8:46
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
9+阅读 · 今天5:37
《多域作战面临复杂现实》
专知会员服务
7+阅读 · 今天5:35
《印度的多域作战:条令与能力发展》报告
专知会员服务
3+阅读 · 今天5:24
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员