Imitation learning based visuomotor policies have achieved strong performance in robotic manipulation, yet they often remain sensitive to egocentric viewpoint shifts. Unlike third-person viewpoint changes that only move the camera, egocentric shifts simultaneously alter both the camera pose and the robot action coordinate frame, making it necessary to jointly transfer action trajectories and synthesize corresponding observations under novel egocentric viewpoints. To address this challenge, we present EgoDemoGen, a framework that generates paired observation--action demonstrations under novel egocentric viewpoints through two key components: 1{)} EgoTrajTransfer, which transfers robot trajectories to the novel egocentric coordinate frame through motion-skill segmentation, geometry-aware transformation, and inverse kinematics filtering; and 2{)} EgoViewTransfer, a conditional video generation model that fuses a novel-viewpoint reprojected scene video and a robot motion video rendered from the transferred trajectory to synthesize photorealistic observations, trained with a self-supervised double reprojection strategy without requiring multi-viewpoint data. Experiments in simulation and real-world settings show that EgoDemoGen consistently improves policy success rates under both standard and novel egocentric viewpoints, with absolute gains of +24.6\% and +16.9\% in simulation and +16.0\% and +23.0\% on the real robot. Moreover, EgoViewTransfer achieves superior video generation quality for novel egocentric observations.


翻译:基于模仿学习的视觉运动策略在机器人操作中取得了显著性能,但其通常对自我中心视点变化敏感。与仅移动相机的第三人称视点变化不同,自我中心视点变化会同时改变相机姿态和机器人动作坐标系,因此需要在新的自我中心视点下联合迁移动作轨迹并合成对应的观测数据。为应对该挑战,我们提出EgoDemoGen框架,通过两个关键组件生成新自我中心视点下的配对观测-动作演示:1)EgoTrajTransfer——通过运动技能分割、几何感知变换和逆运动学滤波将机器人轨迹迁移至新自我中心坐标系;2)EgoViewTransfer——一种条件视频生成模型,融合新视点重投影场景视频与从迁移轨迹渲染的机器人运动视频,以合成逼真观测数据,并采用无需多视点数据的自监督双重重投影策略进行训练。仿真与真实世界实验表明,EgoDemoGen在标准和新自我中心视点下均能稳定提升策略成功率:仿真环境绝对增益达+24.6%与+16.9%,真实机器人环境达+16.0%与+23.0%。此外,EgoViewTransfer在新自我中心观测视频生成质量上表现优异。

0
下载
关闭预览

相关内容

生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【紫冬分享】移动机器人视觉里程计综述
中国科学院自动化研究所
12+阅读 · 2018年10月31日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员