Recent progress in robot learning has been driven by large-scale datasets and powerful visuomotor policy architectures, yet policy robustness remains limited by the substantial cost of collecting diverse demonstrations, particularly for spatial generalization in manipulation tasks. To reduce repetitive data collection, we present Real2Edit2Real, a framework that generates new demonstrations by bridging 3D editability with 2D visual data through a 3D control interface. Our approach first reconstructs scene geometry from multi-view RGB observations with a metric-scale 3D reconstruction model. Based on the reconstructed geometry, we perform depth-reliable 3D editing on point clouds to generate new manipulation trajectories while geometrically correcting the robot poses to recover physically consistent depth, which serves as a reliable condition for synthesizing new demonstrations. Finally, we propose a multi-conditional video generation model guided by depth as the primary control signal, together with action, edge, and ray maps, to synthesize spatially augmented multi-view manipulation videos. Experiments on four real-world manipulation tasks demonstrate that policies trained on data generated from only 1-5 source demonstrations can match or outperform those trained on 50 real-world demonstrations, improving data efficiency by up to 10-50x. Moreover, experimental results on height and texture editing demonstrate the framework's flexibility and extensibility, indicating its potential to serve as a unified data generation framework. Project website is https://real2edit2real.github.io/.


翻译:近年来,机器人学习的进展得益于大规模数据集和强大的视觉运动策略架构,然而策略的鲁棒性仍受到收集多样化演示(尤其是操作任务中的空间泛化)高昂成本的限制。为减少重复性数据收集,我们提出Real2Edit2Real框架,通过3D控制界面将3D可编辑性与2D视觉数据相结合,生成新的演示。该方法首先利用公制尺度的3D重建模型,从多视角RGB观测中重建场景几何结构。基于重建的几何结构,我们对点云进行深度可靠的3D编辑以生成新的操作轨迹,同时通过几何校正机械臂位姿恢复物理一致的深度信息,为合成新演示提供可靠条件。最后,我们提出一种以深度作为主控制信号的多条件视频生成模型(结合动作、边缘与射线图),合成空间增强的多视角操作视频。在四个真实世界操作任务上的实验表明,仅使用1-5个源演示生成的数据训练的策略,即可匹配甚至超越使用50个真实演示训练的策略,数据效率提升达10-50倍。此外,针对高度与纹理编辑的实验结果验证了该框架的灵活性与可扩展性,表明其具备成为统一数据生成框架的潜力。项目网站:https://real2edit2real.github.io/。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
17+阅读 · 4月30日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
40+阅读 · 2024年8月9日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员