This work highlights that video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning. Intuitively, video world models provide the ability to imagine the near future by understanding the causality between actions and visual dynamics. Inspired by this, we introduce LingBot-VA, an autoregressive diffusion framework that learns frame prediction and policy execution simultaneously. Our model features three carefully crafted designs: (1) a shared latent space, integrating vision and action tokens, driven by a Mixture-of-Transformers (MoT) architecture, (2) a closed-loop rollout mechanism, allowing for ongoing acquisition of environmental feedback with ground-truth observations, (3) an asynchronous inference pipeline, parallelizing action prediction and motor execution to support efficient control. We evaluate our model on both simulation benchmarks and real-world scenarios, where it shows significant promise in long-horizon manipulation, data efficiency in post-training, and strong generalizability to novel configurations. The code and model are made publicly available to facilitate the community.


翻译:本研究强调,视频世界建模与视觉语言预训练相结合,为机器人学习建立了一个全新且独立的基础。直观而言,视频世界模型通过理解动作与视觉动态之间的因果关系,提供了预测近期未来的能力。受此启发,我们提出了LingBot-VA,一种自回归扩散框架,能够同时学习帧预测与策略执行。我们的模型具备三项精心设计的特点:(1) 共享潜在空间,通过混合Transformer(MoT)架构整合视觉与动作标记;(2) 闭环推演机制,允许通过真实观测持续获取环境反馈;(3) 异步推理流水线,并行执行动作预测与运动控制以支持高效控制。我们在仿真基准测试和真实场景中对模型进行了评估,结果显示其在长时程操作、训练后数据效率以及对新配置的强泛化能力方面均展现出显著潜力。代码与模型已公开发布,以促进相关领域的研究。

0
下载
关闭预览

相关内容

三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
来自互联网视频的通用机器人学习:综述
专知会员服务
28+阅读 · 2024年5月4日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
「因果机器学习」前沿进展最新综述
专知会员服务
86+阅读 · 2023年1月17日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员