Imitation Learning (IL) enables robots to learn complex skills from demonstrations without explicit task modeling, but it typically requires large amounts of demonstrations, creating significant collection costs. Prior work has investigated using flow as an intermediate representation to enable the use of human videos as a substitute, thereby reducing the amount of required robot demonstrations. However, most prior work has focused on the flow, either on the object or on specific points of the robot/hand, which cannot describe the motion of interaction. Meanwhile, relying on flow to achieve generalization to scenarios observed only in human videos remains limited, as flow alone cannot capture precise motion details. Furthermore, conditioning on scene observation to produce precise actions may cause the flow-conditioned policy to overfit to training tasks and weaken the generalization indicated by the flow. To address these gaps, we propose SFCrP, which includes a Scene Flow prediction model for Cross-embodiment learning (SFCr) and a Flow and Cropped point cloud conditioned Policy (FCrP). SFCr learns from both robot and human videos and predicts any point trajectories. FCrP follows the general flow motion and adjusts the action based on observations for precision tasks. Our method outperforms SOTA baselines across various real-world task settings, while also exhibiting strong spatial and instance generalization to scenarios seen only in human videos.


翻译:模仿学习(Imitation Learning, IL)使机器人能够在不进行显式任务建模的情况下从演示中学习复杂技能,但其通常需要大量演示数据,导致高昂的采集成本。先前研究探索使用光流作为中间表示,以人类视频作为替代数据源,从而减少所需机器人演示的数量。然而,现有工作大多聚焦于物体或机器人/手部特定点上的光流,此类表示无法完整描述交互运动。同时,仅依赖光流实现对人类视频中观测场景的泛化能力仍有限制,因为单纯的光流无法捕捉精确的运动细节。此外,依赖场景观测生成精确动作可能导致基于光流的策略对训练任务过拟合,削弱光流所指示的泛化能力。为弥补这些不足,我们提出SFCrP方法,包含用于跨具身学习的场景流预测模型(SFCr)以及基于流与裁剪点云的条件策略(FCrP)。SFCr从机器人及人类视频中学习,并预测任意点的运动轨迹。FCrP遵循通用的流运动模式,并根据观测调整动作以执行精确任务。我们的方法在多种真实世界任务设定中均优于当前最先进的基线模型,同时对仅见于人类视频的场景展现出强大的空间与实例泛化能力。

0
下载
关闭预览

相关内容

深度学习时代的模仿学习:新型分类体系与最新研究进展
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
39+阅读 · 2024年8月9日
专知会员服务
48+阅读 · 2021年7月2日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
26+阅读 · 2020年10月9日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
网络表示学习领域(NRL/NE)必读论文汇总
AI科技评论
16+阅读 · 2018年2月18日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员