Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning - 专知论文

会员服务 ·

0

交互 · 多智能体强化学习 · 智能体 · 多智能体 · 基于物理 ·

Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning

翻译：学习辅助：基于物理的人类-人类控制通过多智能体强化学习实现

Yuto Shibata,Kashu Yamazaki,Lalit Jayanti,Yoshimitsu Aoki,Mariko Isogawa,Katerina Fragkiadaki

from arxiv, Accepted at CVPR 2026 (main). Project page: https://yutoshibata07.github.io/AssistMimic-projectpage/

Humanoid robotics has strong potential to transform daily service and caregiving applications. Although recent advances in general motion tracking within physics engines (GMT) have enabled virtual characters and humanoid robots to reproduce a broad range of human motions, these behaviors are primarily limited to contact-less social interactions or isolated movements. Assistive scenarios, by contrast, require continuous awareness of a human partner and rapid adaptation to their evolving posture and dynamics. In this paper, we formulate the imitation of closely interacting, force-exchanging human-human motion sequences as a multi-agent reinforcement learning problem. We jointly train partner-aware policies for both the supporter (assistant) agent and the recipient agent in a physics simulator to track assistive motion references. To make this problem tractable, we introduce a partner policies initialization scheme that transfers priors from single-human motion-tracking controllers, greatly improving exploration. We further propose dynamic reference retargeting and contact-promoting reward, which adapt the assistant's reference motion to the recipient's real-time pose and encourage physically meaningful support. We show that AssistMimic is the first method capable of successfully tracking assistive interaction motions on established benchmarks, demonstrating the benefits of a multi-agent RL formulation for physically grounded and socially aware humanoid control.

翻译：人形机器人技术具有改变日常服务和护理应用的巨大潜力。尽管物理引擎中的通用运动跟踪（GMT）技术的最新进展已使虚拟角色和人形机器人能够复现广泛的人类动作，但这些行为主要局限于无接触的社交互动或孤立运动。相比之下，辅助场景需要对人类伙伴保持持续关注，并快速适应其不断变化的姿态和动态。在本文中，我们将紧密交互、力量交换的人类-人类运动序列的模仿构建为一个多智能体强化学习问题。我们在物理模拟器中联合训练支持者（辅助）智能体和接收者智能体的伙伴感知策略，以跟踪辅助运动参考。为使该问题易于处理，我们引入了一种伙伴策略初始化方案，该方案从单人类运动跟踪控制器迁移先验知识，显著改善了探索过程。我们进一步提出了动态参考重定向和接触促进奖励机制，使辅助者的参考运动适应接收者的实时姿态，并鼓励物理上有意义的支撑。我们证明，AssistMimic是首个能够在已建立的基准测试中成功跟踪辅助交互运动的方法，展示了多智能体强化学习框架在物理基础和社交感知的人形机器人控制方面的优势。

0

相关内容

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

专知会员服务

37+阅读 · 1月7日

《人-智能体知识融合：与可解释、可讲述人工智能进行协同意义建构》372页

《人-智能体知识融合：与可解释、可讲述人工智能进行协同意义建构》372页

专知会员服务

39+阅读 · 2025年9月29日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

27+阅读 · 2025年3月20日

【斯坦福博士论文】协作多机器人学习算法

【斯坦福博士论文】协作多机器人学习算法

专知会员服务

17+阅读 · 2025年1月6日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

68+阅读 · 2023年10月5日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

【ETHZ博士论文】强化学习在四足机器人运动规划与控制中的应用

【ETHZ博士论文】强化学习在四足机器人运动规划与控制中的应用

专知会员服务

38+阅读 · 2023年6月3日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

Learning Whole-Body Control for a Salamander Robot

Arxiv

0+阅读 · 3月17日

AI-Assisted Decision Making with Human Learning

AI-Assisted Decision Making with Human Learning

Arxiv

0+阅读 · 2月19日

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 2月12日

A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots

Arxiv

0+阅读 · 2月9日

Intelligent support for Human Oversight: Integrating Reinforcement Learning with Gaze Simulation to Personalize Highlighting

Arxiv

0+阅读 · 2月9日

TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control

Arxiv

0+阅读 · 2月7日

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

多智能体强化学习

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

专知会员服务

37+阅读 · 1月7日

《人-智能体知识融合：与可解释、可讲述人工智能进行协同意义建构》372页

《人-智能体知识融合：与可解释、可讲述人工智能进行协同意义建构》372页

专知会员服务

39+阅读 · 2025年9月29日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

27+阅读 · 2025年3月20日

【斯坦福博士论文】协作多机器人学习算法

【斯坦福博士论文】协作多机器人学习算法

专知会员服务

17+阅读 · 2025年1月6日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

68+阅读 · 2023年10月5日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

【ETHZ博士论文】强化学习在四足机器人运动规划与控制中的应用

【ETHZ博士论文】强化学习在四足机器人运动规划与控制中的应用

专知会员服务

38+阅读 · 2023年6月3日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Learning Whole-Body Control for a Salamander Robot

Arxiv

0+阅读 · 3月17日

AI-Assisted Decision Making with Human Learning

AI-Assisted Decision Making with Human Learning

Arxiv

0+阅读 · 2月19日

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 2月12日

A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots

Arxiv

0+阅读 · 2月9日

Intelligent support for Human Oversight: Integrating Reinforcement Learning with Gaze Simulation to Personalize Highlighting

Arxiv

0+阅读 · 2月9日

TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control

Arxiv

0+阅读 · 2月7日

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

相关基金

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员