Humanoid table tennis (TT) demands rapid perception, proactive whole-body motion, and agile footwork under strict timing--capabilities that remain difficult for end-to-end control policies. We propose a reinforcement learning (RL) framework that maps ball-position observations directly to whole-body joint commands for both arm striking and leg locomotion, strengthened by predictive signals and dense, physics-guided rewards. A lightweight learned predictor, fed with recent ball positions, estimates future ball states and augments the policy's observations for proactive decision-making. During training, a physics-based predictor supplies precise future states to construct dense, informative rewards that lead to effective exploration. The resulting policy attains strong performance across varied serve ranges (hit rate$\geq$96% and success rate$\geq$92%) in simulations. Ablation studies confirm that both the learned predictor and the predictive reward design are critical for end-to-end learning. Deployed zero-shot on a physical Booster T1 humanoid with 23 revolute joints, the policy produces coordinated lateral and forward-backward footwork with accurate, fast returns, suggesting a practical path toward versatile, competitive humanoid TT. We have open-sourced our RL training code at: https://github.com/purdue-tracelab/TTRL-ICRA2026


翻译:人形乒乓球要求严格的时序控制下具备快速感知、主动全身运动及敏捷步法——这些能力对于端到端控制策略而言仍然困难重重。我们提出一种强化学习框架,该框架将球的位置观测直接映射到用于手臂击球和腿部运动的全身关节指令,并通过预测信号和密集的物理引导奖励加以强化。一种轻量级学习预测器利用最近的球位置信息估计未来球状态,并增强策略的观测能力以实现主动决策。在训练过程中,基于物理的预测器提供精确的未来状态,用于构建密集且有信息量的奖励,从而引导有效的探索。最终获得的策略在模拟环境中对不同发球范围均表现出强劲性能(命中率≥96%,成功率≥92%)。消融实验证实,学习预测器和预测性奖励设计对端到端学习至关重要。该策略在具有23个旋转关节的实体Booster T1人形机器人上实现零样本部署,能产生协调的横向与前后步法,并实现准确、快速的回球,为迈向全能且具竞争力的人形乒乓球指明了可行路径。我们已在以下网址开源强化学习训练代码:https://github.com/purdue-tracelab/TTRL-ICRA2026

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
虚拟人运动控制策略学习方法的研究进展与展望
专知会员服务
19+阅读 · 2024年8月17日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
「强化学习在无人车领域」的应用与展望
专知会员服务
58+阅读 · 2022年12月8日
【微软亚研130PPT教程】强化学习简介
专知
37+阅读 · 2018年10月26日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
智能体技能综合综述:分类、技术与应用
专知会员服务
0+阅读 · 今天15:00
《美战争部人工智能计划》27页slides
专知会员服务
14+阅读 · 今天3:33
下一代高超音速能力
专知会员服务
5+阅读 · 今天3:10
【ICML2026】大型视觉语言模型在注意力中迷失
专知会员服务
9+阅读 · 5月10日
美海军EA-18G“咆哮者”与电子攻击的崛起
专知会员服务
9+阅读 · 5月10日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员