RoboStriker：用于仿人机器人自主拳击的分层决策系统 (RoboStriker: Hierarchical Decision-Making for Autonomous Humanoid Boxing) - 专知论文

会员服务 ·

0

仿人 · 仿人机器人 · 潜在 · 机器人 · 分层 ·

RoboStriker: Hierarchical Decision-Making for Autonomous Humanoid Boxing

翻译：RoboStriker：用于仿人机器人自主拳击的分层决策系统

Kangning Yin,Zhe Cao,Wentao Dong,Weishuai Zeng,Tianyi Zhang,Qiang Zhang,Jingbo Wang,Jiangmiao Pang,Ming Zhou,Weinan Zhang

Achieving human-level competitive intelligence and physical agility in humanoid robots remains a major challenge, particularly in contact-rich and highly dynamic tasks such as boxing. While Multi-Agent Reinforcement Learning (MARL) offers a principled framework for strategic interaction, its direct application to humanoid control is hindered by high-dimensional contact dynamics and the absence of strong physical motion priors. We propose RoboStriker, a hierarchical three-stage framework that enables fully autonomous humanoid boxing by decoupling high-level strategic reasoning from low-level physical execution. The framework first learns a comprehensive repertoire of boxing skills by training a single-agent motion tracker on human motion capture data. These skills are subsequently distilled into a structured latent manifold, regularized by projecting the Gaussian-parameterized distribution onto a unit hypersphere. This topological constraint effectively confines exploration to the subspace of physically plausible motions. In the final stage, we introduce Latent-Space Neural Fictitious Self-Play (LS-NFSP), where competing agents learn competitive tactics by interacting within the latent action space rather than the raw motor space, significantly stabilizing multi-agent training. Experimental results demonstrate that RoboStriker achieves superior competitive performance in simulation and exhibits sim-to-real transfer. Our website is available at RoboStriker.

翻译：在仿人机器人中实现人类水平的竞争智能与身体敏捷性仍然是一个重大挑战，尤其是在拳击这类接触密集且高度动态的任务中。虽然多智能体强化学习为策略性交互提供了一个原则性框架，但其直接应用于仿人机器人控制受到高维接触动力学和缺乏强物理运动先验的阻碍。我们提出了RoboStriker，这是一个三层级框架，通过将高层策略推理与底层物理执行解耦，实现了完全自主的仿人机器人拳击。该框架首先通过在人类运动捕捉数据上训练单智能体运动跟踪器，学习一套全面的拳击技能。这些技能随后被提炼成一个结构化的潜在流形，并通过将高斯参数化分布投影到单位超球面上进行正则化。这种拓扑约束有效地将探索限制在物理上合理的运动子空间内。在最后阶段，我们引入了潜在空间神经虚拟自我博弈，其中竞争智能体通过在潜在动作空间而非原始电机空间内交互来学习竞争策略，从而显著稳定了多智能体训练。实验结果表明，RoboStriker在仿真中实现了卓越的竞争性能，并展现了从仿真到现实的迁移能力。我们的网站可通过RoboStriker访问。

0

相关内容

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

28+阅读 · 1月4日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

39+阅读 · 2025年12月28日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

24+阅读 · 2025年12月6日

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

专知会员服务

24+阅读 · 2025年5月28日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

专知会员服务

12+阅读 · 2025年4月19日

作战战术决策中的人机对比

作战战术决策中的人机对比

专知会员服务

99+阅读 · 2023年10月17日

基于多智能体博弈强化学习的无人机智能攻击策略生成模型

基于多智能体博弈强化学习的无人机智能攻击策略生成模型

专知会员服务

107+阅读 · 2023年10月16日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【军用机器人+博弈论】paper速读：美国陆军研究实验室提出“基于博弈论的多机器人协作行动模型”

【军用机器人+博弈论】paper速读：美国陆军研究实验室提出“基于博弈论的多机器人协作行动模型”

专知会员服务

66+阅读 · 2022年3月21日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

29+阅读 · 2022年11月23日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

84+阅读 · 2022年9月24日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

机器人军团的智能指挥

机器人军团的智能指挥

科技导报

12+阅读 · 2019年4月4日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

Arxiv

0+阅读 · 2月17日

RoboSolver: A Multi-Agent Large Language Model Framework for Solving Robotic Arm Problems

Arxiv

0+阅读 · 2月16日

A Kung Fu Athlete Bot That Can Do It All Day: Highly Dynamic, Balance-Challenging Motion Dataset and Autonomous Fall-Resilient Tracking

Arxiv

0+阅读 · 2月14日

General Humanoid Whole-Body Control via Pretraining and Fast Adaptation

Arxiv

0+阅读 · 2月12日

RISE: Self-Improving Robot Policy with Compositional World Model

Arxiv

0+阅读 · 2月11日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Learning Human-Like Badminton Skills for Humanoid Robots

Arxiv

0+阅读 · 2月9日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 2月4日

Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Arxiv

0+阅读 · 2月3日

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

仿人机器人

相关VIP内容

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

28+阅读 · 1月4日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

39+阅读 · 2025年12月28日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

24+阅读 · 2025年12月6日

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

专知会员服务

24+阅读 · 2025年5月28日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

专知会员服务

12+阅读 · 2025年4月19日

作战战术决策中的人机对比

作战战术决策中的人机对比

专知会员服务

99+阅读 · 2023年10月17日

基于多智能体博弈强化学习的无人机智能攻击策略生成模型

基于多智能体博弈强化学习的无人机智能攻击策略生成模型

专知会员服务

107+阅读 · 2023年10月16日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【军用机器人+博弈论】paper速读：美国陆军研究实验室提出“基于博弈论的多机器人协作行动模型”

【军用机器人+博弈论】paper速读：美国陆军研究实验室提出“基于博弈论的多机器人协作行动模型”

专知会员服务

66+阅读 · 2022年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

29+阅读 · 2022年11月23日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

84+阅读 · 2022年9月24日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

33+阅读 · 2022年7月31日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

机器人军团的智能指挥

机器人军团的智能指挥

科技导报

12+阅读 · 2019年4月4日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

相关论文

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

Arxiv

0+阅读 · 2月17日

RoboSolver: A Multi-Agent Large Language Model Framework for Solving Robotic Arm Problems

Arxiv

0+阅读 · 2月16日

A Kung Fu Athlete Bot That Can Do It All Day: Highly Dynamic, Balance-Challenging Motion Dataset and Autonomous Fall-Resilient Tracking

Arxiv

0+阅读 · 2月14日

General Humanoid Whole-Body Control via Pretraining and Fast Adaptation

Arxiv

0+阅读 · 2月12日

RISE: Self-Improving Robot Policy with Compositional World Model

Arxiv

0+阅读 · 2月11日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Learning Human-Like Badminton Skills for Humanoid Robots

Arxiv

0+阅读 · 2月9日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 2月4日

Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Arxiv

0+阅读 · 2月3日

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

Arxiv

0+阅读 · 1月29日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员