GoalSwarm: Multi-UAV Semantic Coordination for Open-Vocabulary Object Navigation - 专知论文

会员服务 ·

0

多无人机 · 语义协同 · 协同 · 协作 · 样本 ·

GoalSwarm: Multi-UAV Semantic Coordination for Open-Vocabulary Object Navigation

翻译：GoalSwarm：面向开放词汇目标导航的多无人机语义协同框架

MoniJesu Wonders James,Amir Atef Habel,Aleksey Fedoseev,Dzmitry Tsetserokou

from arxiv, 6 pages, 2 figures

Cooperative visual semantic navigation is a foundational capability for aerial robot teams operating in unknown environments. However, achieving robust open-vocabulary object-goal navigation remains challenging due to the computational constraints of deploying heavy perception models onboard and the complexity of decentralized multi-agent coordination. We present GoalSwarm, a fully decentralized multi-UAV framework for zero-shot semantic object-goal navigation. Each UAV collaboratively constructs a shared, lightweight 2D top-down semantic occupancy map by projecting depth observations from aerial vantage points, eliminating the computational burden of full 3D representations while preserving essential geometric and semantic structure. The core contributions of GoalSwarm are threefold: (1) integration of zero-shot foundation model -- SAM3 for open vocabulary detection and pixel-level segmentation, enabling open-vocabulary target identification without task-specific training; (2) a Bayesian Value Map that fuses multi-viewpoint detection confidences into a per-pixel goal-relevance distribution, enabling informed frontier scoring via Upper Confidence Bound (UCB) exploration; and (3) a decentralized coordination strategy combining semantic frontier extraction, cost-utility bidding with geodesic path costs, and spatial separation penalties to minimize redundant exploration across the swarm.

翻译：协作视觉语义导航是空中机器人团队在未知环境中运行的基础能力。然而，由于在机载设备上部署重型感知模型的计算限制以及去中心化多智能体协调的复杂性，实现鲁棒的开放词汇目标物体导航仍然具有挑战性。本文提出GoalSwarm，一个用于零样本语义目标物体导航的完全去中心化多无人机框架。每架无人机通过从空中有利位置投影深度观测，协作构建一个共享的轻量级二维俯视语义占据地图，在保留基本几何和语义结构的同时，消除了完整三维表示的计算负担。GoalSwarm的核心贡献有三方面：(1) 集成零样本基础模型——SAM3用于开放词汇检测和像素级分割，无需任务特定训练即可实现开放词汇目标识别；(2) 一种贝叶斯价值地图，将多视角检测置信度融合为每个像素的目标相关度分布，从而通过上置信界(UCB)探索实现有信息依据的前沿区域评分；(3) 一种去中心化协调策略，结合语义前沿提取、基于测地线路径成本的成本-效用投标以及空间分离惩罚，以最小化整个集群中的冗余探索。

0

相关内容

多无人机

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

14+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

16+阅读 · 4月11日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

专知会员服务

18+阅读 · 2024年12月28日

《Swarm-GPT：将大型语言模型与无人机蜂群编排设计的安全运动规划相结合》最新论文

《Swarm-GPT：将大型语言模型与无人机蜂群编排设计的安全运动规划相结合》最新论文

专知会员服务

103+阅读 · 2024年1月20日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

108+阅读 · 2022年10月28日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

国外有人/无人机协同作战研究现状与发展趋势

国外有人/无人机协同作战研究现状与发展趋势

专知

78+阅读 · 2023年4月11日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

108+阅读 · 2022年4月28日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

ReMemNav: A Rethinking and Memory-Augmented Framework for Zero-Shot Object Navigation

Arxiv

0+阅读 · 4月7日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Visual Contextual Adaptation

Arxiv

0+阅读 · 4月1日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月20日

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Arxiv

0+阅读 · 3月19日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

Arxiv

0+阅读 · 3月17日

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Arxiv

0+阅读 · 3月5日

COMRES-VLM: Coordinated Multi-Robot Exploration and Search using Vision Language Models

Arxiv

0+阅读 · 3月1日

VIP会员

文章信息

相关主题

最新内容

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

1+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

1+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

人工智能如何变革军事C5ISR作战

人工智能如何变革军事C5ISR作战

专知会员服务

12+阅读 · 5月8日

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

专知会员服务

8+阅读 · 5月8日

相关VIP内容

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

14+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

16+阅读 · 4月11日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

专知会员服务

18+阅读 · 2024年12月28日

《Swarm-GPT：将大型语言模型与无人机蜂群编排设计的安全运动规划相结合》最新论文

《Swarm-GPT：将大型语言模型与无人机蜂群编排设计的安全运动规划相结合》最新论文

专知会员服务

103+阅读 · 2024年1月20日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

108+阅读 · 2022年10月28日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

国外有人/无人机协同作战研究现状与发展趋势

国外有人/无人机协同作战研究现状与发展趋势

专知

78+阅读 · 2023年4月11日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

108+阅读 · 2022年4月28日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

相关论文

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

ReMemNav: A Rethinking and Memory-Augmented Framework for Zero-Shot Object Navigation

Arxiv

0+阅读 · 4月7日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Visual Contextual Adaptation

Arxiv

0+阅读 · 4月1日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月26日

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月20日

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Arxiv

0+阅读 · 3月19日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

Arxiv

0+阅读 · 3月17日

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Arxiv

0+阅读 · 3月5日

COMRES-VLM: Coordinated Multi-Robot Exploration and Search using Vision Language Models

Arxiv

0+阅读 · 3月1日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员