This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.


翻译:本研究强调,视频世界建模与视觉语言预训练相结合,为机器人学习建立了一个全新且独立的基础。直观而言,视频世界模型通过理解动作与视觉动态之间的因果关系,提供了预测近期未来的能力。受此启发,我们提出了LingBot-VA,一种自回归扩散框架,能够同时学习帧预测与策略执行。我们的模型具备三项精心设计的特点:(1) 共享潜在空间,通过混合Transformer(MoT)架构整合视觉与动作标记;(2) 闭环推演机制,允许通过真实观测持续获取环境反馈;(3) 异步推理流水线,并行执行动作预测与运动控制以支持高效控制。我们在仿真基准测试和真实场景中对模型进行了评估,结果显示其在长时程操作、训练后数据效率以及对新配置的强泛化能力方面均展现出显著潜力。代码与模型已公开发布,以促进相关领域的研究。

0
下载
关闭预览

相关内容

三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
来自互联网视频的通用机器人学习:综述
专知会员服务
28+阅读 · 2024年5月4日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
「因果机器学习」前沿进展最新综述
专知会员服务
85+阅读 · 2023年1月17日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员