Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos - 专知论文

会员服务 ·

0

视频 · 操作 · 机器人 · 生成器 · 物体抓取 ·

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos

翻译：模仿有效行为：基于仿真过滤的模块化策略从人类视频中学习

Albert J. Zhai,Kuo-Hao Zeng,Jiasen Lu,Ali Farhadi,Shenlong Wang,Wei-Chiu Ma

from arxiv, Transactions on Machine Learning Research (TMLR)

The ability to learn manipulation skills by watching videos of humans has the potential to unlock a new source of highly scalable data for robot learning. Here, we tackle prehensile manipulation, in which tasks involve grasping an object before performing various post-grasp motions. Human videos offer strong signals for learning the post-grasp motions, but they are less useful for learning the prerequisite grasping behaviors, especially for robots without human-like hands. A promising way forward is to use a modular policy design, leveraging a dedicated grasp generator to produce stable grasps. However, arbitrary stable grasps are often not task-compatible, hindering the robot's ability to perform the desired downstream motion. To address this challenge, we present Perceive-Simulate-Imitate (PSI), a framework for training a modular manipulation policy using human video motion data processed by paired grasp-trajectory filtering in simulation. This simulation step extends the trajectory data with grasp suitability labels, which allows for supervised learning of task-oriented grasping capabilities. We show through real-world experiments that our framework can be used to learn precise manipulation skills efficiently without any robot data, resulting in significantly more robust performance than using a grasp generator naively.

翻译：通过观看人类视频学习操作技能的能力，有望为机器人学习开辟新的高可扩展数据源。本文聚焦于抓取操作任务——此类任务要求在完成物体抓取后执行多种抓取后动作。人类视频能为学习抓取后动作提供有效信号，但对于学习前置抓取行为（尤其是缺乏类人灵巧手的机器人）帮助有限。一个有前景的方案是采用模块化策略设计，利用专用抓取生成器产生稳定抓取动作。然而，任意稳定抓取动作往往与任务不兼容，阻碍机器人执行预期的下游动作。针对这一挑战，我们提出"感知-仿真-模仿"(PSI)框架，该框架通过仿真环境中配对抓取-轨迹过滤处理人类视频运动数据，训练模块化操作策略。仿真步骤为轨迹数据添加抓取适用性标签，从而实现对任务导向型抓取能力的监督学习。通过真实世界实验验证，本框架可在无需任何机器人数据的情况下高效学习精准操作技能，较之直接使用抓取生成器的方法，展现出显著更稳健的性能表现。

0

相关内容

视频

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【UIUC博士论文】《从视频中进行机器人学习》

【UIUC博士论文】《从视频中进行机器人学习》

专知会员服务

25+阅读 · 2024年12月20日

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

专知会员服务

26+阅读 · 2024年8月4日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

专知会员服务

28+阅读 · 2023年10月4日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知会员服务

154+阅读 · 2019年10月18日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

ADAPT: Analytical Disturbance-Aware Policy Training for Humanoid Locomotion

Arxiv

0+阅读 · 6月15日

V2P-Manip: Learning Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 6月15日

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Arxiv

0+阅读 · 6月12日

Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning

Arxiv

0+阅读 · 6月11日

EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations

Arxiv

0+阅读 · 6月10日

LUCID: Learning Embodiment-Agnostic Intent Models from Unstructured Human Videos for Scalable Dexterous Robot Skill Acquisition

Arxiv

0+阅读 · 6月10日

Dexterous Point Policy: Learning Point-based Dexterous Hand Policies from Human Demonstrations

Arxiv

0+阅读 · 6月9日

Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video

Arxiv

0+阅读 · 6月7日

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data

Arxiv

0+阅读 · 6月3日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【UIUC博士论文】《从视频中进行机器人学习》

【UIUC博士论文】《从视频中进行机器人学习》

专知会员服务

25+阅读 · 2024年12月20日

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

专知会员服务

26+阅读 · 2024年8月4日

【斯坦福博士论文】生成模型的视觉与行为

【斯坦福博士论文】生成模型的视觉与行为

专知会员服务

33+阅读 · 2024年7月11日

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

专知会员服务

28+阅读 · 2023年10月4日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知会员服务

154+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

相关论文

ADAPT: Analytical Disturbance-Aware Policy Training for Humanoid Locomotion

Arxiv

0+阅读 · 6月15日

V2P-Manip: Learning Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 6月15日

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Arxiv

0+阅读 · 6月12日

Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning

Arxiv

0+阅读 · 6月11日

EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations

Arxiv

0+阅读 · 6月10日

LUCID: Learning Embodiment-Agnostic Intent Models from Unstructured Human Videos for Scalable Dexterous Robot Skill Acquisition

Arxiv

0+阅读 · 6月10日

Dexterous Point Policy: Learning Point-based Dexterous Hand Policies from Human Demonstrations

Arxiv

0+阅读 · 6月9日

Video2Sim2Real: Full-Stack Autonomous Dexterous Skill Acquisition from a Single Human Video

Arxiv

0+阅读 · 6月7日

From Video to Control: A Survey of Learning Manipulation Interfaces from Temporal Visual Data

Arxiv

0+阅读 · 6月3日

How to Utilize Failure Demo Data?: Effective Data Selection for Imitation Learning Using Distribution Differences in Attention Mechanism

Arxiv

0+阅读 · 5月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员