PACE: Physics Augmentation for Coordinated End-to-end Reinforcement Learning toward Versatile Humanoid Table Tennis - 专知论文

会员服务 ·

0

端到端 · 强化学习 · 控制策略 · 映射 · 基于物理 ·

PACE: Physics Augmentation for Coordinated End-to-end Reinforcement Learning toward Versatile Humanoid Table Tennis

翻译：PACE：面向全能型人形乒乓球协调端到端强化学习的物理增强方法

Muqun Hu,Wenxi Chen,Wenjing Li,Falak Mandali,Zijian He,Renhong Zhang,Praveen Krisna,Katherine Christian,Leo Benaharon,Dizhi Ma,Karthik Ramani,Yan Gu

Humanoid table tennis (TT) demands rapid perception, proactive whole-body motion, and agile footwork under strict timing--capabilities that remain difficult for end-to-end control policies. We propose a reinforcement learning (RL) framework that maps ball-position observations directly to whole-body joint commands for both arm striking and leg locomotion, strengthened by predictive signals and dense, physics-guided rewards. A lightweight learned predictor, fed with recent ball positions, estimates future ball states and augments the policy's observations for proactive decision-making. During training, a physics-based predictor supplies precise future states to construct dense, informative rewards that lead to effective exploration. The resulting policy attains strong performance across varied serve ranges (hit rate$\geq$96% and success rate$\geq$92%) in simulations. Ablation studies confirm that both the learned predictor and the predictive reward design are critical for end-to-end learning. Deployed zero-shot on a physical Booster T1 humanoid with 23 revolute joints, the policy produces coordinated lateral and forward-backward footwork with accurate, fast returns, suggesting a practical path toward versatile, competitive humanoid TT. We have open-sourced our RL training code at: https://github.com/purdue-tracelab/TTRL-ICRA2026

翻译：人形乒乓球要求严格的时序控制下具备快速感知、主动全身运动及敏捷步法——这些能力对于端到端控制策略而言仍然困难重重。我们提出一种强化学习框架，该框架将球的位置观测直接映射到用于手臂击球和腿部运动的全身关节指令，并通过预测信号和密集的物理引导奖励加以强化。一种轻量级学习预测器利用最近的球位置信息估计未来球状态，并增强策略的观测能力以实现主动决策。在训练过程中，基于物理的预测器提供精确的未来状态，用于构建密集且有信息量的奖励，从而引导有效的探索。最终获得的策略在模拟环境中对不同发球范围均表现出强劲性能（命中率≥96%，成功率≥92%）。消融实验证实，学习预测器和预测性奖励设计对端到端学习至关重要。该策略在具有23个旋转关节的实体Booster T1人形机器人上实现零样本部署，能产生协调的横向与前后步法，并实现准确、快速的回球，为迈向全能且具竞争力的人形乒乓球指明了可行路径。我们已在以下网址开源强化学习训练代码：https://github.com/purdue-tracelab/TTRL-ICRA2026

0

相关内容

端到端

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

虚拟人运动控制策略学习方法的研究进展与展望

虚拟人运动控制策略学习方法的研究进展与展望

专知会员服务

19+阅读 · 2024年8月17日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

专知会员服务

66+阅读 · 2023年9月10日

「强化学习在无人车领域」的应用与展望

「强化学习在无人车领域」的应用与展望

专知会员服务

58+阅读 · 2022年12月8日

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

专知会员服务

158+阅读 · 2022年8月20日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

用于反演自然生物关节结构及力学性能的柔性机构设计理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

人致荷载的物理随机模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Disentangled Point Diffusion for Precise Object Placement

Arxiv

0+阅读 · 4月13日

GraspSense: Physically Grounded Grasp and Grip Planning for a Dexterous Robotic Hand via Language-Guided Perception and Force Maps

Arxiv

0+阅读 · 4月7日

Biologically Inspired Event-Based Perception and Sample-Efficient Learning for High-Speed Table Tennis Robots

Arxiv

0+阅读 · 4月6日

MaskAdapt: Learning Flexible Motion Adaptation via Mask-Invariant Prior for Physics-Based Characters

Arxiv

0+阅读 · 4月2日

SMASH: Mastering Scalable Whole-Body Skills for Humanoid Ping-Pong with Egocentric Vision

Arxiv

0+阅读 · 4月1日

ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

Arxiv

0+阅读 · 4月1日

KINESIS: Motion Imitation for Human Musculoskeletal Locomotion

Arxiv

0+阅读 · 3月25日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

Arxiv

0+阅读 · 2月27日

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

最新内容

【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

专知会员服务

0+阅读 · 今天15:03

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

0+阅读 · 今天15:00

整合兵棋推演与模拟以增强军事后勤（中英文版PDF下载）

整合兵棋推演与模拟以增强军事后勤（中英文版PDF下载）

专知会员服务

14+阅读 · 今天4:03

多智能体指挥与控制（C2）场景：面向雷达任务的可扩展多智能体协同算法研究 300页

多智能体指挥与控制（C2）场景：面向雷达任务的可扩展多智能体协同算法研究 300页

专知会员服务

15+阅读 · 今天3:38

《美战争部人工智能计划》27页slides

《美战争部人工智能计划》27页slides

专知会员服务

14+阅读 · 今天3:33

《俄乌战争背景下关于俄罗斯的战略信息、情报与展望》书籍400页

《俄乌战争背景下关于俄罗斯的战略信息、情报与展望》书籍400页

专知会员服务

7+阅读 · 今天3:15

下一代高超音速能力

下一代高超音速能力

专知会员服务

5+阅读 · 今天3:10

《敌方主动对抗条件下攻击型无人机蜂群打击任务建模》

《敌方主动对抗条件下攻击型无人机蜂群打击任务建模》

专知会员服务

10+阅读 · 今天3:05

10大无人机蜂群如何改变现代空战的规划与作战方式

10大无人机蜂群如何改变现代空战的规划与作战方式

专知会员服务

5+阅读 · 今天2:42

【ICML2026】大型视觉语言模型在注意力中迷失

【ICML2026】大型视觉语言模型在注意力中迷失

专知会员服务

9+阅读 · 5月10日

【博士论文】机器人生成式建模：从元学习到多模态建模

【博士论文】机器人生成式建模：从元学习到多模态建模

专知会员服务

16+阅读 · 5月10日

美海军EA-18G“咆哮者”与电子攻击的崛起

美海军EA-18G“咆哮者”与电子攻击的崛起

专知会员服务

9+阅读 · 5月10日

回归基本：俄罗斯顿巴斯战役（2015）揭示了现代战争的何种特质

回归基本：俄罗斯顿巴斯战役（2015）揭示了现代战争的何种特质

专知会员服务

7+阅读 · 5月10日

《面向传感器任务分配的分布式协同多智能体架构：海军系统应用》230页

《面向传感器任务分配的分布式协同多智能体架构：海军系统应用》230页

专知会员服务

17+阅读 · 5月10日

《多域作战、新兴军事技术与机动战的未来》（0.75万字，中文版、英文版PDF下载）

《多域作战、新兴军事技术与机动战的未来》（0.75万字，中文版、英文版PDF下载）

专知会员服务

18+阅读 · 5月10日

相关VIP内容

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

虚拟人运动控制策略学习方法的研究进展与展望

虚拟人运动控制策略学习方法的研究进展与展望

专知会员服务

19+阅读 · 2024年8月17日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

专知会员服务

66+阅读 · 2023年9月10日

「强化学习在无人车领域」的应用与展望

「强化学习在无人车领域」的应用与展望

专知会员服务

58+阅读 · 2022年12月8日

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

专知会员服务

158+阅读 · 2022年8月20日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体技能综合综述：分类、技术与应用

多智能体指挥与控制（C2）场景：面向雷达任务的可扩展多智能体协同算法研究 300页

【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

整合兵棋推演与模拟以增强军事后勤（中英文版PDF下载）

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Disentangled Point Diffusion for Precise Object Placement

Arxiv

0+阅读 · 4月13日

GraspSense: Physically Grounded Grasp and Grip Planning for a Dexterous Robotic Hand via Language-Guided Perception and Force Maps

Arxiv

0+阅读 · 4月7日

Biologically Inspired Event-Based Perception and Sample-Efficient Learning for High-Speed Table Tennis Robots

Arxiv

0+阅读 · 4月6日

MaskAdapt: Learning Flexible Motion Adaptation via Mask-Invariant Prior for Physics-Based Characters

Arxiv

0+阅读 · 4月2日

SMASH: Mastering Scalable Whole-Body Skills for Humanoid Ping-Pong with Egocentric Vision

Arxiv

0+阅读 · 4月1日

ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

Arxiv

0+阅读 · 4月1日

KINESIS: Motion Imitation for Human Musculoskeletal Locomotion

Arxiv

0+阅读 · 3月25日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Curriculum Reinforcement Learning for Quadrotor Racing with Random Obstacles

Arxiv

0+阅读 · 2月27日

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

Arxiv

0+阅读 · 2月26日

相关基金

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

用于反演自然生物关节结构及力学性能的柔性机构设计理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

人致荷载的物理随机模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员