RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation - 专知论文

会员服务 ·

0

多样性 · 可行 · 预训练 · 操作 · 机器人 ·

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

翻译：RoboGene：通过多样性驱动的智能体框架增强VLA预训练以生成真实世界任务

Yixue Zhang,Kun Wu,Zhi Gao,Zhen Zhao,Pei Ren,Zhiyuan Xu,Fei Liao,Xinhua Wang,Shichao Fan,Di Wu,Qiuxuan Feng,Meng Li,Zhengping Che,Chang Liu,Jian Tang

The pursuit of general-purpose robotic manipulation is hindered by the scarcity of diverse, real-world interaction data. Unlike data collection from web in vision or language, robotic data collection is an active process incurring prohibitive physical costs. Consequently, automated task curation to maximize data value remains a critical yet under-explored challenge. Existing manual methods are unscalable and biased toward common tasks, while off-the-shelf foundation models often hallucinate physically infeasible instructions. To address this, we introduce RoboGene, an agentic framework designed to automate the generation of diverse, physically plausible manipulation tasks across single-arm, dual-arm, and mobile robots. RoboGene integrates three core components: diversity-driven sampling for broad task coverage, self-reflection mechanisms to enforce physical constraints, and human-in-the-loop refinement for continuous improvement. We conduct extensive quantitative analysis and large-scale real-world experiments, collecting datasets of 18k trajectories and introducing novel metrics to assess task quality, feasibility, and diversity. Results demonstrate that RoboGene significantly outperforms state-of-the-art foundation models (e.g., GPT-4o, Gemini 2.5 Pro). Furthermore, real-world experiments show that VLA models pre-trained with RoboGene achieve higher success rates and superior generalization, underscoring the importance of high-quality task generation. Our project is available at https://robogene-boost-vla.github.io.

翻译：通用机器人操作能力的实现受到多样化真实世界交互数据稀缺的制约。与视觉或语言领域可从网络获取数据不同，机器人数据采集是主动过程，需承担高昂的物理成本。因此，通过自动化任务编排以最大化数据价值，仍是至关重要却尚未充分探索的挑战。现有人工方法难以扩展且偏向常见任务，而现成的基础模型常产生物理上不可行的指令。为此，我们提出RoboGene——一种智能体框架，旨在为单臂、双臂及移动机器人自动生成多样化且物理可行的操作任务。RoboGene整合了三个核心组件：实现广泛任务覆盖的多样性驱动采样、强制执行物理约束的自反思机制，以及持续优化的人机协同精炼。我们进行了广泛的定量分析和大规模真实世界实验，收集了包含18k条轨迹的数据集，并引入新指标以评估任务质量、可行性与多样性。结果表明，RoboGene显著优于现有最先进的基础模型（如GPT-4o、Gemini 2.5 Pro）。此外，真实世界实验显示，使用RoboGene预训练的VLA模型取得了更高的成功率和更优的泛化能力，这印证了高质量任务生成的重要性。项目地址：https://robogene-boost-vla.github.io。

0

相关内容

多样性

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

30+阅读 · 1月4日

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

专知会员服务

35+阅读 · 2025年9月20日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

18+阅读 · 2025年7月1日

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

专知会员服务

60+阅读 · 2023年10月10日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

69+阅读 · 2023年10月5日

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

专知会员服务

59+阅读 · 2023年7月11日

《网络战仿真中的多智能体强化学习》最新42页报告

《网络战仿真中的多智能体强化学习》最新42页报告

专知会员服务

47+阅读 · 2023年7月11日

【普林斯顿博士论文】真实世界机器学习应用中的人机协作，133页pdf

【普林斯顿博士论文】真实世界机器学习应用中的人机协作，133页pdf

专知会员服务

67+阅读 · 2023年3月8日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Traj2Action: A Co-Denoising Framework for Trajectory-Guided Human-to-Robot Skill Transfer

Arxiv

0+阅读 · 3月17日

RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Arxiv

0+阅读 · 3月13日

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Arxiv

0+阅读 · 3月3日

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Arxiv

0+阅读 · 2月18日

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月16日

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation

Arxiv

0+阅读 · 2月15日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

30+阅读 · 1月4日

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

专知会员服务

35+阅读 · 2025年9月20日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

18+阅读 · 2025年7月1日

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

100多位作者！具身智能人进展！谷歌 DeepMind等机构推出《开放 X-实体化：机器人学习数据集与 RT-X 模型》论文

专知会员服务

60+阅读 · 2023年10月10日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

69+阅读 · 2023年10月5日

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

迈向通用具身智能：基于基础模型实现通用机器人抓取任务

专知会员服务

59+阅读 · 2023年7月11日

《网络战仿真中的多智能体强化学习》最新42页报告

《网络战仿真中的多智能体强化学习》最新42页报告

专知会员服务

47+阅读 · 2023年7月11日

【普林斯顿博士论文】真实世界机器学习应用中的人机协作，133页pdf

【普林斯顿博士论文】真实世界机器学习应用中的人机协作，133页pdf

专知会员服务

67+阅读 · 2023年3月8日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

105+阅读 · 2022年9月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

相关论文

Traj2Action: A Co-Denoising Framework for Trajectory-Guided Human-to-Robot Skill Transfer

Arxiv

0+阅读 · 3月17日

RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Arxiv

0+阅读 · 3月13日

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Arxiv

0+阅读 · 3月3日

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Arxiv

0+阅读 · 2月18日

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月16日

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation

Arxiv

0+阅读 · 2月15日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月5日

相关基金

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员