Navigation is a fundamental capability for mobile robots. While the current trend is to use learning-based approaches to replace traditional geometry-based methods, existing end-to-end learning-based policies often struggle with 3D spatial reasoning and lack a comprehensive understanding of physical world dynamics. Integrating world models-which predict future observations conditioned on given actions-with iterative optimization planning offers a promising solution due to their capacity for imagination and flexibility. However, current navigation world models, typically built on pure transformer architectures, often rely on multi-step diffusion processes and autoregressive frame-by-frame generation. These mechanisms result in prohibitive computational latency, rendering real-time deployment impossible. To address this bottleneck, we propose a lightweight navigation world model that adopts a one-step generation paradigm and a 3D U-Net backbone equipped with efficient spatial-temporal attention. This design drastically reduces inference latency, enabling high-frequency control while achieving superior predictive performance. We also integrate this model into an optimization-based planning framework utilizing anchor-based initialization to handle multi-modal goal navigation tasks. Extensive closed-loop experiments in both simulation and real-world environments demonstrate our system's superior efficiency and robustness compared to state-of-the-art baselines.


翻译:导航是移动机器人的基本能力。当前趋势是利用基于学习的方法替代传统基于几何的方法,然而现有的端到端学习策略往往难以进行三维空间推理,且缺乏对物理世界动态的全面理解。世界模型——即根据给定动作预测未来观测的模型——与迭代优化规划相结合,因其想象能力和灵活性而成为一种有前景的解决方案。然而,当前基于纯Transformer架构构建的导航世界模型通常依赖于多步扩散过程和自回归逐帧生成机制。这些机制导致计算延迟过高,无法实现实时部署。为解决这一瓶颈,我们提出了一种轻量级导航世界模型,该模型采用单步生成范式,并配备高效时空注意力的3D U-Net骨干网络。该设计显著降低了推理延迟,在实现高频控制的同时获得了卓越的预测性能。我们还将该模型集成到基于优化的规划框架中,利用基于锚点的初始化方法来处理多模态目标导航任务。在仿真和真实环境中的大量闭环实验表明,相较于最先进的基线方法,我们的系统在效率和鲁棒性方面均表现出显著优势。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
激光slam导航方案凭什么更被各大厂家青睐?
计算机视觉life
15+阅读 · 2019年1月25日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员