ABot-N0：通用具身导航视觉-语言-动作基础模型技术报告 (ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation) - 专知论文

会员服务 ·

0

点目标 · 分层 · 大模型 · 报告 · 兴趣点 ·

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

翻译：ABot-N0：通用具身导航视觉-语言-动作基础模型技术报告

Zedong Chu,Shichao Xie,Xiaolong Wu,Yanfen Shen,Minghua Luo,Zhengbo Wang,Fei Liu,Xiaoxu Leng,Junjun Hu,Mingyang Yin,Jia Lu,Yingnan Guo,Kai Yang,Jiawei Han,Xu Chen,Yanqing Zhu,Yuxiang Zhao,Xin Liu,Yirong Yang,Ye He,Jiahang Wang,Yang Cai,Tianlin Zhang,Li Gao,Liu Liu,Mingchao Sun,Fan Jiang,Chiyu Wang,Zhicheng Liu,Hongyu Pan,Honglin Han,Zhining Gu,Kuan Yang,Jianfang Zhang,Di Jing,Zihao Guan,Wei Guo,Guoqing Liu,Di Yang,Xiangpo Yang,Menglin Yang,Hongguang Xing,Weiguo Li,Mu Xu

from arxiv, Project Page: https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/

Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 $\text{km}^2$). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.

翻译：具身导航领域长期因任务特定架构而处于割裂状态。我们提出了ABot-N0，一个统一的视觉-语言-动作基础模型，实现了在五个核心任务上的“大一统”：点目标导航、物体目标导航、指令跟随、兴趣点目标导航和人员跟随。ABot-N0采用了一种分层的“大脑-动作”架构，将基于大语言模型的认知大脑（用于语义推理）与基于流匹配的动作专家（用于生成精确、连续的轨迹）相结合。为支持大规模学习，我们开发了ABot-N0数据引擎，在7,802个高保真3D场景（总面积10.7 $\text{km}^2$）中，精心构建了1,690万条专家轨迹和500万个推理样本。ABot-N0在7个基准测试中均取得了新的最先进性能，显著优于专用模型。此外，我们的自主导航系统集成了规划器与分层拓扑记忆，能够在动态的真实世界环境中执行鲁棒的长时程任务。

0

相关内容

点目标

【ICCV2025教程】基础模型遇见具身智能体

【ICCV2025教程】基础模型遇见具身智能体

专知会员服务

16+阅读 · 2025年10月23日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

CoRL 2024 | InstructNav：通用指令导航大模型系统

CoRL 2024 | InstructNav：通用指令导航大模型系统

专知会员服务

24+阅读 · 2024年9月21日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

推荐！《军事元宇宙作战概念（CONOPS）》【完整译文】2022最新13页技术报告，北约科学和技术组织（STO）

推荐！《军事元宇宙作战概念（CONOPS）》【完整译文】2022最新13页技术报告，北约科学和技术组织（STO）

专知

13+阅读 · 2022年10月15日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

北斗IGSO/MEO卫星偏航姿态模式下的光压摄动理论和模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS卫星导航信号畸变快速诊断与实时预警建模方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高超声速飞行器超紧耦合自主可靠导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

Arxiv

0+阅读 · 2月16日

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Arxiv

0+阅读 · 2月12日

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Arxiv

0+阅读 · 2月11日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

A Survey on Vision-Language-Action Models for Embodied AI

Arxiv

0+阅读 · 2月4日

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

Arxiv

0+阅读 · 2月3日

USS-Nav: Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation

Arxiv

0+阅读 · 2月3日

DV-VLN: Dual Verification for Reliable LLM-Based Vision-and-Language Navigation

Arxiv

0+阅读 · 1月26日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【ICCV2025教程】基础模型遇见具身智能体

【ICCV2025教程】基础模型遇见具身智能体

专知会员服务

16+阅读 · 2025年10月23日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

CoRL 2024 | InstructNav：通用指令导航大模型系统

CoRL 2024 | InstructNav：通用指令导航大模型系统

专知会员服务

24+阅读 · 2024年9月21日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

推荐！《军事元宇宙作战概念（CONOPS）》【完整译文】2022最新13页技术报告，北约科学和技术组织（STO）

推荐！《军事元宇宙作战概念（CONOPS）》【完整译文】2022最新13页技术报告，北约科学和技术组织（STO）

专知

13+阅读 · 2022年10月15日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

Arxiv

0+阅读 · 2月16日

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Arxiv

0+阅读 · 2月12日

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Arxiv

0+阅读 · 2月11日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

A Survey on Vision-Language-Action Models for Embodied AI

Arxiv

0+阅读 · 2月4日

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

Arxiv

0+阅读 · 2月3日

USS-Nav: Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation

Arxiv

0+阅读 · 2月3日

DV-VLN: Dual Verification for Reliable LLM-Based Vision-and-Language Navigation

Arxiv

0+阅读 · 1月26日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Arxiv

0+阅读 · 1月13日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

北斗IGSO/MEO卫星偏航姿态模式下的光压摄动理论和模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS卫星导航信号畸变快速诊断与实时预警建模方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高超声速飞行器超紧耦合自主可靠导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员