Training generalist robots demands large-scale, diverse manipulation data, yet real-world collection is prohibitively expensive, and existing simulators are often constrained by fixed asset libraries and manual heuristics. To bridge this gap, we present V-Dreamer, a fully automated framework that generates open-vocabulary, simulation-ready manipulation environments and executable expert trajectories directly from natural language instructions. V-Dreamer employs a novel generative pipeline that constructs physically grounded 3D scenes using large language models and 3D generative models, validated by geometric constraints to ensure stable, collision-free layouts. Crucially, for behavior synthesis, we leverage video generation models as rich motion priors. These visual predictions are then mapped into executable robot trajectories via a robust Sim-to-Gen visual-kinematic alignment module utilizing CoTracker3 and VGGT. This pipeline supports high visual diversity and physical fidelity without manual intervention. To evaluate the generated data, we train imitation learning policies on synthesized trajectories encompassing diverse object and environment variations. Extensive evaluations on tabletop manipulation tasks using the Piper robotic arm demonstrate that our policies robustly generalize to unseen objects in simulation and achieve effective sim-to-real transfer, successfully manipulating novel real-world objects.


翻译:通用型机器人的训练需要大规模、多样化的操作数据,然而真实世界的数据采集成本极高,现有仿真器又常受限于固定资产库和人工启发式规则。为弥合这一差距,我们提出V-Dreamer——一个全自动框架,能直接从自然语言指令生成开放词汇、可仿真的操作环境与可执行的专家轨迹。V-Dreamer采用新颖的生成式流水线,通过大型语言模型和3D生成模型构建具备物理基础的3D场景,并利用几何约束验证确保稳定无碰撞的布局。关键在于,为行为合成,我们利用视频生成模型作为丰富的运动先验,再通过基于CoTracker3和VGGT的鲁棒性Sim-to-Gen视觉-运动学对齐模块,将这些视觉预测映射为可执行的机器人轨迹。该流水线在不依赖人工干预的前提下,支持高度的视觉多样性与物理保真性。为评估生成数据,我们基于包含多样物体与环境变化的合成轨迹训练模仿学习策略。在Piper机械臂平台上进行的桌面操作任务广泛评估表明,我们的策略能稳健地泛化至仿真中未见物体,并实现有效的仿真到现实迁移,成功操控真实世界的新颖物体。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
17+阅读 · 4月30日
仿生机器人技术的军事应用
专知会员服务
14+阅读 · 2025年12月4日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员