Embodied navigation in open, dynamic environments demands accurate foresight of how the world will evolve and how actions will unfold over time. We propose AstraNav-World, an end-to-end world model that jointly reasons about future visual states and action sequences within a unified probabilistic framework. Our framework integrates a diffusion-based video generator with a vision-language policy, enabling synchronized rollouts where predicted scenes and planned actions are updated simultaneously. Training optimizes two complementary objectives: generating action-conditioned multi-step visual predictions and deriving trajectories conditioned on those predicted visuals. This bidirectional constraint makes visual predictions executable and keeps decisions grounded in physically consistent, task-relevant futures, mitigating cumulative errors common in decoupled "envision-then-plan" pipelines. Experiments across diverse embodied navigation benchmarks show improved trajectory accuracy and higher success rates. Ablations confirm the necessity of tight vision-action coupling and unified training, with either branch removal degrading both prediction quality and policy reliability. In real-world testing, AstraNav-World demonstrated exceptional zero-shot capabilities, adapting to previously unseen scenarios without any real-world fine-tuning. These results suggest that AstraNav-World captures transferable spatial understanding and planning-relevant navigation dynamics, rather than merely overfitting to simulation-specific data distribution. Overall, by unifying foresight vision and control within a single generative model, we move closer to reliable, interpretable, and general-purpose embodied agents that operate robustly in open-ended real-world settings.


翻译:在开放、动态环境中进行具身导航,需要对世界如何演变以及动作如何随时间展开具备精确的前瞻能力。我们提出AstraNav-World,一种端到端的世界模型,在统一概率框架内联合推理未来视觉状态与动作序列。该框架将基于扩散的视频生成器与视觉-语言策略相结合,实现同步展开,其中预测场景与规划动作同时更新。训练过程优化两个互补目标:生成动作条件化的多步视觉预测,并基于这些预测视觉推导出轨迹。这种双向约束使得视觉预测具备可执行性,并确保决策扎根于物理一致、任务相关的未来,从而缓解解耦式“先设想后规划”流程中常见的累积误差。在多种具身导航基准上的实验表明,轨迹精度与成功率均有所提升。消融实验证实了紧密视觉-动作耦合与统一训练的必要性,任一分支的移除都会降低预测质量与策略可靠性。在真实世界测试中,AstraNav-World展现出卓越的零样本能力,无需任何真实微调即可适应未见场景。这些结果表明,AstraNav-World捕捉到可迁移的空间理解及与规划相关的导航动态,而非仅仅过拟合于仿真特定的数据分布。总体而言,通过将前瞻视觉与控制统一于单个生成模型,我们更接近能够在开放式真实世界环境中稳健运行的可靠、可解释且通用的具身智能体。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
41+阅读 · 2024年5月9日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
41+阅读 · 2024年5月9日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员