IGen: Scalable Data Generation for Robot Learning from Open-World Images - 专知论文

会员服务 ·

0

开放世界 · 机器人 · 机器人学 · 数据生成 · 机器人学习 ·

IGen: Scalable Data Generation for Robot Learning from Open-World Images

翻译：IGen：面向开放世界图像的机器人学习可扩展数据生成

Chenghao Gu,Haolan Kang,Junchao Lin,Jinghe Wang,Duo Wu,Shuzhao Xie,Fanding Huang,Junchen Ge,Ziyang Gong,Letian Li,Hongying Zheng,Changwei Lv,Zhi Wang

from arxiv, 8 pages, 8 figures; Accepted to CVPR 2026

The rise of generalist robotic policies has created an exponential demand for large-scale training data. However, on-robot data collection is labor-intensive and often limited to specific environments. In contrast, open-world images capture a vast diversity of real-world scenes that naturally align with robotic manipulation tasks, offering a promising avenue for low-cost, large-scale robot data acquisition. Despite this potential, the lack of associated robot actions hinders the practical use of open-world images for robot learning, leaving this rich visual resource largely unexploited. To bridge this gap, we propose IGen, a framework that scalably generates realistic visual observations and executable actions from open-world images. IGen first converts unstructured 2D pixels into structured 3D scene representations suitable for scene understanding and manipulation. It then leverages the reasoning capabilities of vision-language models to transform scene-specific task instructions into high-level plans and generate low-level actions as SE(3) end-effector pose sequences. From these poses, it synthesizes dynamic scene evolution and renders temporally coherent visual observations. Experiments validate the high quality of visuomotor data generated by IGen, and show that policies trained solely on IGen-synthesized data achieve performance comparable to those trained on real-world data. This highlights the potential of IGen to support scalable data generation from open-world images for generalist robotic policy training.

翻译：通用机器人策略的兴起催生了对大规模训练数据的指数级需求。然而，基于机器人的数据采集既费时耗力，又往往局限于特定环境。相比之下，开放世界图像捕捉了与机器人操作任务自然对齐的多样化真实场景，为低成本、大规模机器人数据采集提供了极具前景的途径。尽管潜力巨大，但缺乏关联的机器人动作阻碍了开放世界图像在机器人学习中的实际应用，使得这一丰富的视觉资源尚未被充分开发。为弥补这一差距，我们提出IGen框架，该框架能从开放世界图像中可扩展地生成逼真的视觉观测与可执行动作。IGen首先将非结构化二维像素转化为适合场景理解与操作的结构化三维场景表征；随后利用视觉语言模型的推理能力，将场景特定任务指令转化为高层规划，并生成低层动作——以SE(3)末端执行器位姿序列表示。基于这些位姿，它合成动态场景演化过程，并渲染时序一致的视觉观测。实验验证了IGen生成的视觉-运动数据的高质量，并表明仅基于IGen合成数据训练的策略，其性能可与基于真实世界数据训练的策略相媲美。这凸显了IGen在支持从开放世界图像进行可扩展数据生成、用于通用机器人策略训练方面的潜力。

0

相关内容

开放世界

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

《大数据在机器人与军事技术智能系统构建中的核心作用》

《大数据在机器人与军事技术智能系统构建中的核心作用》

专知会员服务

35+阅读 · 2025年8月31日

开放世界机器学习

开放世界机器学习

专知会员服务

31+阅读 · 2024年3月7日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

专知会员服务

60+阅读 · 2023年10月10日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

以数据为中心的图机器学习

以数据为中心的图机器学习

专知会员服务

38+阅读 · 2023年9月25日

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

专知会员服务

59+阅读 · 2023年7月11日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知会员服务

110+阅读 · 2022年8月25日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

Arxiv

0+阅读 · 4月23日

Web-Gewu: A Browser-Based Interactive Playground for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月18日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

Arxiv

0+阅读 · 4月10日

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Arxiv

0+阅读 · 4月9日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

VIP会员

文章信息

相关主题

机器人学习

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

5+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

《大数据在机器人与军事技术智能系统构建中的核心作用》

《大数据在机器人与军事技术智能系统构建中的核心作用》

专知会员服务

35+阅读 · 2025年8月31日

开放世界机器学习

开放世界机器学习

专知会员服务

31+阅读 · 2024年3月7日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

73+阅读 · 2024年1月24日

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

专知会员服务

60+阅读 · 2023年10月10日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

以数据为中心的图机器学习

以数据为中心的图机器学习

专知会员服务

38+阅读 · 2023年9月25日

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

专知会员服务

59+阅读 · 2023年7月11日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知会员服务

110+阅读 · 2022年8月25日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

相关论文

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

Arxiv

0+阅读 · 4月23日

Web-Gewu: A Browser-Based Interactive Playground for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月18日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

Arxiv

0+阅读 · 4月10日

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Arxiv

0+阅读 · 4月9日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员