Imitation learning based visuomotor policies have achieved strong performance in robotic manipulation, yet they often remain sensitive to egocentric viewpoint shifts. Unlike third-person viewpoint changes that only move the camera, egocentric shifts simultaneously alter both the camera pose and the robot action coordinate frame, making it necessary to jointly transfer action trajectories and synthesize corresponding observations under novel egocentric viewpoints. To address this challenge, we present EgoDemoGen, a framework that generates paired observation--action demonstrations under novel egocentric viewpoints through two key components: 1{)} EgoTrajTransfer, which transfers robot trajectories to the novel egocentric coordinate frame through motion-skill segmentation, geometry-aware transformation, and inverse kinematics filtering; and 2{)} EgoViewTransfer, a conditional video generation model that fuses a novel-viewpoint reprojected scene video and a robot motion video rendered from the transferred trajectory to synthesize photorealistic observations, trained with a self-supervised double reprojection strategy without requiring multi-viewpoint data. Experiments in simulation and real-world settings show that EgoDemoGen consistently improves policy success rates under both standard and novel egocentric viewpoints, with absolute gains of +24.6\% and +16.9\% in simulation and +16.0\% and +23.0\% on the real robot. Moreover, EgoViewTransfer achieves superior video generation quality for novel egocentric observations.


翻译:基于模仿学习的视觉运动策略在机器人操作中取得了显著性能,但其通常对自我中心视点变化敏感。与仅移动相机的第三人称视点变化不同,自我中心视点变化会同时改变相机姿态和机器人动作坐标系,因此需要在新的自我中心视点下联合迁移动作轨迹并合成对应的观测数据。为应对该挑战,我们提出EgoDemoGen框架,通过两个关键组件生成新自我中心视点下的配对观测-动作演示:1)EgoTrajTransfer——通过运动技能分割、几何感知变换和逆运动学滤波将机器人轨迹迁移至新自我中心坐标系;2)EgoViewTransfer——一种条件视频生成模型,融合新视点重投影场景视频与从迁移轨迹渲染的机器人运动视频,以合成逼真观测数据,并采用无需多视点数据的自监督双重重投影策略进行训练。仿真与真实世界实验表明,EgoDemoGen在标准和新自我中心视点下均能稳定提升策略成功率:仿真环境绝对增益达+24.6%与+16.9%,真实机器人环境达+16.0%与+23.0%。此外,EgoViewTransfer在新自我中心观测视频生成质量上表现优异。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
16+阅读 · 5月4日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【紫冬分享】移动机器人视觉里程计综述
中国科学院自动化研究所
12+阅读 · 2018年10月31日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员