基于任务中心的对齐运动先验策略优化 (Task-Centric Policy Optimization from Misaligned Motion Priors) - 专知论文

会员服务 ·

0

演示 · 策略优化 · 机器人控制 · 对抗 · 对齐 ·

Task-Centric Policy Optimization from Misaligned Motion Priors

翻译：基于任务中心的对齐运动先验策略优化

Ziang Zheng,Kai Feng,Yi Nie,Shentao Qin

from arxiv, Work requires further details and not complete yet

Humanoid control often leverages motion priors from human demonstrations to encourage natural behaviors. However, such demonstrations are frequently suboptimal or misaligned with robotic tasks due to embodiment differences, retargeting errors, and task-irrelevant variations, causing naïve imitation to degrade task performance. Conversely, task-only reinforcement learning admits many task-optimal solutions, often resulting in unnatural or unstable motions. This exposes a fundamental limitation of linear reward mixing in adversarial imitation learning. We propose \emph{Task-Centric Motion Priors} (TCMP), a task-priority adversarial imitation framework that treats imitation as a conditional regularizer rather than a co-equal objective. TCMP maximizes task improvement while incorporating imitation signals only when they are compatible with task progress, yielding an adaptive, geometry-aware update that preserves task-feasible descent and suppresses harmful imitation under misalignment. We provide theoretical analysis of gradient conflict and task-priority stationary points, and validate our claims through humanoid control experiments demonstrating robust task performance with consistent motion style under noisy demonstrations.

翻译：人形机器人控制常利用人类演示的运动先验来促进自然行为。然而，由于本体差异、重定向误差以及与任务无关的变异，此类演示往往存在次优或与机器人任务不匹配的问题，导致简单模仿会降低任务性能。相反，仅基于任务的强化学习会产生许多任务最优解，但通常会导致不自然或不稳定的运动。这揭示了对抗模仿学习中线性奖励混合的根本局限性。我们提出\textbf{任务中心运动先验}（TCMP），这是一种任务优先的对抗模仿框架，将模仿视为条件正则化器而非同等重要的目标。TCMP在最大化任务改进的同时，仅当模仿信号与任务进展兼容时才将其纳入，从而产生一种自适应的、几何感知的更新方法，该方法能保留任务可行的下降方向，并在不匹配情况下抑制有害的模仿。我们对梯度冲突和任务优先驻点进行了理论分析，并通过人形机器人控制实验验证了我们的主张，实验表明在噪声演示下能实现稳健的任务性能并保持一贯的运动风格。

0

相关内容

《不确定环境下的移动任务规划研究》133页

《不确定环境下的移动任务规划研究》133页

专知会员服务

38+阅读 · 1月16日

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

25+阅读 · 2025年11月21日

《基于优化的复杂多无人机任务自动分配技术》

《基于优化的复杂多无人机任务自动分配技术》

专知会员服务

32+阅读 · 2025年8月29日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

专知会员服务

46+阅读 · 2023年11月13日

《人机协作决策优化》142页博士论文

《人机协作决策优化》142页博士论文

专知会员服务

179+阅读 · 2023年7月16日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

29+阅读 · 2022年11月23日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Arxiv

0+阅读 · 2月18日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation

Arxiv

0+阅读 · 2月10日

DynaRetarget: Dynamically-Feasible Retargeting using Sampling-Based Trajectory Optimization

Arxiv

0+阅读 · 2月6日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting

Arxiv

0+阅读 · 1月28日

GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control

Arxiv

0+阅读 · 1月28日

Task-Centric Policy Optimization from Misaligned Motion Priors

Arxiv

0+阅读 · 1月27日

VIP会员

文章信息

相关主题

机器人控制

相关VIP内容

《不确定环境下的移动任务规划研究》133页

《不确定环境下的移动任务规划研究》133页

专知会员服务

38+阅读 · 1月16日

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

25+阅读 · 2025年11月21日

《基于优化的复杂多无人机任务自动分配技术》

《基于优化的复杂多无人机任务自动分配技术》

专知会员服务

32+阅读 · 2025年8月29日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

专知会员服务

46+阅读 · 2023年11月13日

《人机协作决策优化》142页博士论文

《人机协作决策优化》142页博士论文

专知会员服务

179+阅读 · 2023年7月16日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

29+阅读 · 2022年11月23日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

相关论文

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Arxiv

0+阅读 · 2月18日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation

Arxiv

0+阅读 · 2月10日

DynaRetarget: Dynamically-Feasible Retargeting using Sampling-Based Trajectory Optimization

Arxiv

0+阅读 · 2月6日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting

Arxiv

0+阅读 · 1月28日

GPO: Growing Policy Optimization for Legged Robot Locomotion and Whole-Body Control

Arxiv

0+阅读 · 1月28日

Task-Centric Policy Optimization from Misaligned Motion Priors

Arxiv

0+阅读 · 1月27日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员