面向三维空间长时程视觉生成与导航的空中世界模型 (Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space) - 专知论文

会员服务 ·

0

视觉生成 · 世界模型 · 长时程 · 投影 · 无人机 ·

Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space

翻译：面向三维空间长时程视觉生成与导航的空中世界模型

Weichen Zhang,Peizhi Tang,Xin Zeng,Fanhang Man,Shiquan Yu,Zichao Dai,Baining Zhao,Hongjin Chen,Yu Shang,Wei Wu,Chen Gao,Xinlei Chen,Xin Wang,Yong Li,Wenwu Zhu

Unmanned aerial vehicles (UAVs) have emerged as powerful embodied agents. One of the core abilities is autonomous navigation in large-scale three-dimensional environments. Existing navigation policies, however, are typically optimized for low-level objectives such as obstacle avoidance and trajectory smoothness, lacking the ability to incorporate high-level semantics into planning. To bridge this gap, we propose ANWM, an aerial navigation world model that predicts future visual observations conditioned on past frames and actions, thereby enabling agents to rank candidate trajectories by their semantic plausibility and navigational utility. ANWM is trained on 4-DoF UAV trajectories and introduces a physics-inspired module: Future Frame Projection (FFP), which projects past frames into future viewpoints to provide coarse geometric priors. This module mitigates representational uncertainty in long-distance visual generation and captures the mapping between 3D trajectories and egocentric observations. Empirical results demonstrate that ANWM significantly outperforms existing world models in long-distance visual forecasting and improves UAV navigation success rates in large-scale environments.

翻译：无人机已成为强大的具身智能体。其核心能力之一是在大规模三维环境中的自主导航。然而，现有的导航策略通常针对避障和轨迹平滑等低层目标进行优化，缺乏将高层语义信息融入规划的能力。为弥补这一差距，我们提出了ANWM，一种空中导航世界模型，该模型能够基于历史帧和动作预测未来的视觉观测，从而使智能体能够根据候选轨迹的语义合理性和导航效用对其进行排序。ANWM在四自由度无人机轨迹上进行训练，并引入了一个受物理学启发的模块：未来帧投影（FFP）。该模块将历史帧投影到未来视点，以提供粗略的几何先验。此模块减轻了长距离视觉生成中的表征不确定性，并捕捉了三维轨迹与自我中心观测之间的映射关系。实证结果表明，ANWM在长距离视觉预测方面显著优于现有世界模型，并提高了无人机在大规模环境中的导航成功率。

1

相关内容

视觉生成

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

《小型无人机系统的人员选拔、角色定位与培训体系》NASA最新53页报告

《小型无人机系统的人员选拔、角色定位与培训体系》NASA最新53页报告

专知会员服务

14+阅读 · 2025年7月15日

基于视觉的无人机定位与导航方法研究综述

基于视觉的无人机定位与导航方法研究综述

专知会员服务

21+阅读 · 2025年5月21日

景象匹配无人机视觉定位

景象匹配无人机视觉定位

专知会员服务

20+阅读 · 2025年2月20日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

【2023新书】工程无人机应用:传感器融合、机器视觉和任务管理，

【2023新书】工程无人机应用:传感器融合、机器视觉和任务管理，

专知会员服务

71+阅读 · 2023年10月6日

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

专知会员服务

34+阅读 · 2023年6月24日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

63+阅读 · 2022年12月18日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

《无人机》专题报告-新时代开启无人装备新篇章

《无人机》专题报告-新时代开启无人装备新篇章

专知

25+阅读 · 2022年11月9日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

军用无人机行业深度报告

军用无人机行业深度报告

专知

15+阅读 · 2022年8月21日

国防军工行业航空装备深度报告：军用无人机，45页pdf

国防军工行业航空装备深度报告：军用无人机，45页pdf

专知

30+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

72+阅读 · 2022年6月30日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于大气偏振特性的载体三维空间自主姿态测量理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维复杂地形环境下基于无人机追逃问题的航路规划方法研究

国家自然科学基金

26+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

无人机对地目标跟踪与定位的基础理论与关键技术

国家自然科学基金

18+阅读 · 2011年12月31日

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

Arxiv

0+阅读 · 2月3日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

0+阅读 · 2月2日

Autonomous Navigation at the Nano-Scale: Algorithms, Architectures, and Constraints

Arxiv

0+阅读 · 1月19日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

AviationLMM: A Large Multimodal Foundation Model for Civil Aviation

Arxiv

0+阅读 · 1月14日

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

Arxiv

0+阅读 · 1月12日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月9日

ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination

Arxiv

0+阅读 · 1月8日

ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation

Arxiv

1+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

《小型无人机系统的人员选拔、角色定位与培训体系》NASA最新53页报告

《小型无人机系统的人员选拔、角色定位与培训体系》NASA最新53页报告

专知会员服务

14+阅读 · 2025年7月15日

基于视觉的无人机定位与导航方法研究综述

基于视觉的无人机定位与导航方法研究综述

专知会员服务

21+阅读 · 2025年5月21日

景象匹配无人机视觉定位

景象匹配无人机视觉定位

专知会员服务

20+阅读 · 2025年2月20日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

75+阅读 · 2023年11月27日

【2023新书】工程无人机应用:传感器融合、机器视觉和任务管理，

【2023新书】工程无人机应用:传感器融合、机器视觉和任务管理，

专知会员服务

71+阅读 · 2023年10月6日

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

专知会员服务

34+阅读 · 2023年6月24日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

63+阅读 · 2022年12月18日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

《无人机》专题报告-新时代开启无人装备新篇章

《无人机》专题报告-新时代开启无人装备新篇章

专知

25+阅读 · 2022年11月9日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

军用无人机行业深度报告

军用无人机行业深度报告

专知

15+阅读 · 2022年8月21日

国防军工行业航空装备深度报告：军用无人机，45页pdf

国防军工行业航空装备深度报告：军用无人机，45页pdf

专知

30+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

72+阅读 · 2022年6月30日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

相关论文

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

Arxiv

0+阅读 · 2月3日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

0+阅读 · 2月2日

Autonomous Navigation at the Nano-Scale: Algorithms, Architectures, and Constraints

Arxiv

0+阅读 · 1月19日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

AviationLMM: A Large Multimodal Foundation Model for Civil Aviation

Arxiv

0+阅读 · 1月14日

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

Arxiv

0+阅读 · 1月12日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月9日

ImagineNav++: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination

Arxiv

0+阅读 · 1月8日

ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation

Arxiv

1+阅读 · 2025年12月31日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

3+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于大气偏振特性的载体三维空间自主姿态测量理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维复杂地形环境下基于无人机追逃问题的航路规划方法研究

国家自然科学基金

26+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

无人机对地目标跟踪与定位的基础理论与关键技术

国家自然科学基金

18+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员