World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct action models require embodiment-specific labels that hinder scalability. We present $μ_0$, a scalable world model based on 3D traces. Rather than predicting dense pixels or directly modeling actions, $μ_0$ forecasts smooth 3D trajectories for salient interaction points such as objects, tools, hands, and contact regions, yielding a compact, embodiment-agnostic motion interface. To enable training from diverse video sources, our TraceExtract system automatically extracts 3D supervision by selecting keypoints, constructing globally aligned traces, and associating motion segments with hierarchical language captions. This TraceExtract supervision pretrains $μ_0$ by combining a pretrained vision-language backbone with a modular trace expert, which represents each query via B-spline control points and predicts future traces. Experiments show that $μ_0$ outperforms baselines in both 2D and 3D trace prediction, including trace prediction models and tokenized VLM methods. Because $μ_0$ is frozen and reusable, it can be paired with action experts for downstream robot embodiments. Despite action-free pretraining, the resulting trace-conditioned policies achieve performance competitive with VLA models pretrained with action supervision, such as $π_0$. These results establish 3D traces as a scalable and transferable representation for cross-embodiment manipulation.


翻译:捕捉动作如何引发物理变化的世界模型使机器人学习能够规模化,而无需依赖具身特定的动作标签。像素级视频模型提供了广泛的视觉先验,但将模型容量消耗在密集外观重建上,而直接动作模型则需要具身特定标签,阻碍了可扩展性。我们提出$μ_0$,一种基于三维轨迹的可扩展世界模型。与预测密集像素或直接建模动作不同,$μ_0$预测物体、工具、手部及接触区域等显著交互点的平滑三维轨迹,从而形成一种紧凑且与具身无关的运动接口。为从多样化视频源进行训练,我们的TraceExtract系统通过选择关键点、构建全局对齐的轨迹,并将运动片段与层次化语言描述关联,自动提取三维监督信号。这种TraceExtract监督信号通过将预训练的视觉-语言骨干网络与模块化轨迹专家相结合来预训练$μ_0$,其中轨迹专家通过B样条控制点表示每个查询并预测未来轨迹。实验表明,$μ_0$在二维和三维轨迹预测任务上均优于基线方法,包括轨迹预测模型和分词化VLM方法。由于$μ_0$可冻结且可复用,它能够与动作专家配对实现下游机器人具身化。尽管采用无动作预训练,基于轨迹的条件策略仍达到了与使用动作监督预训练的VLA模型(如$π_0$)相竞争的性能。这些结果确立了三维轨迹作为跨具身操作任务中可扩展且可迁移的表征。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员