基于深度强化学习的协作无人机自主决策：一种搜救现实世界应用 (Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application) - 专知论文

会员服务 ·

0

协作 · 融合 · 图注意力网络 · 无人机 · 自主决策 ·

Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application

翻译：基于深度强化学习的协作无人机自主决策：一种搜救现实世界应用

Thomas Hickling,Maxwell Hogan,Abdulla Tammam,Nabil Aouf

from arxiv, 22 Pages, 24 Figures

This paper presents the first end-to-end framework that combines guidance, navigation, and centralised task allocation for multiple UAVs performing autonomous search-and-rescue (SAR) in GNSS-denied indoor environments. A Twin Delayed Deep Deterministic Policy Gradient controller is trained with an Artificial Potential Field (APF) reward that blends attractive and repulsive potentials with continuous control, accelerating convergence and yielding smoother, safer trajectories than distance-only baselines. Collaborative mission assignment is solved by a deep Graph Attention Network that, at each decision step, reasons over the drone-task graph to produce near-optimal allocations with negligible on-board compute. To arrest the notorious Z-drift of indoor LiDAR-SLAM, we fuse depth-camera altimetry with IMU vertical velocity in a lightweight complementary filter, giving centimetre-level altitude stability without external beacons. The resulting system was deployed on two 1m-class quad-rotors and flight-tested in a cluttered, multi-level disaster mock-up designed for the NATO-Sapience Autonomous Cooperative Drone Competition. Compared with prior DRL guidance that remains largely in simulation, our framework demonstrates an ability to navigate complex indoor environments, securing first place in the 2024 event. These results demonstrate that APF-shaped DRL and GAT-driven cooperation can translate to reliable real-world SAR operations.

翻译：本文提出了首个端到端框架，将引导、导航与集中式任务分配相结合，用于多架无人机在GNSS拒止室内环境中执行自主搜救任务。我们采用融合吸引势与排斥势的人工势场奖励函数训练Twin Delayed Deep Deterministic Policy Gradient控制器，结合连续控制加速收敛，相比仅基于距离的基线方法能生成更平滑、更安全的轨迹。协作任务分配通过深度图注意力网络求解，该网络在每个决策步骤对无人机-任务图进行推理，以可忽略的机载计算量产生接近最优的分配方案。为抑制室内LiDAR-SLAM固有的Z轴漂移问题，我们通过轻量级互补滤波器融合深度相机测高数据与IMU垂直速度，在不依赖外部信标的情况下实现厘米级高度稳定性。该完整系统部署于两架1米级四旋翼无人机，并在为北约Sapience自主协作无人机竞赛设计的杂乱多层灾难模拟场景中进行飞行测试。与主要停留在仿真阶段的现有DRL引导方法相比，我们的框架展现出在复杂室内环境中的导航能力，荣获2024年赛事冠军。这些结果表明，APF塑造的DRL与GAT驱动的协作机制能够转化为可靠的实际搜救操作。

0

相关内容

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

专知会员服务

23+阅读 · 2025年9月7日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

27+阅读 · 2025年5月15日

《全自主人工智能在军用无人机攻击或防御决策中的应用》

《全自主人工智能在军用无人机攻击或防御决策中的应用》

专知会员服务

70+阅读 · 2024年7月13日

无人机集群编队自主协同控制方法综述

无人机集群编队自主协同控制方法综述

专知会员服务

75+阅读 · 2024年4月15日

基于强化学习的无人机集群对抗策略推演仿真

基于强化学习的无人机集群对抗策略推演仿真

专知会员服务

69+阅读 · 2024年4月14日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

83+阅读 · 2023年6月27日

深度强化学习的无人作战飞机空战机动决策

深度强化学习的无人作战飞机空战机动决策

专知会员服务

120+阅读 · 2023年5月22日

面向任务的无人机集群自主决策技术

面向任务的无人机集群自主决策技术

专知会员服务

189+阅读 · 2023年4月15日

《使用强化学习的无人作战飞行器机队协同规划》12页论文

《使用强化学习的无人作战飞行器机队协同规划》12页论文

专知会员服务

164+阅读 · 2022年11月14日

【首本无人机UAVs硬核书】《通信、监视和交付无人机自主导航与部署》，275页pdf

【首本无人机UAVs硬核书】《通信、监视和交付无人机自主导航与部署》，275页pdf

专知会员服务

98+阅读 · 2022年9月13日

国外有人/无人机协同作战研究现状与发展趋势

国外有人/无人机协同作战研究现状与发展趋势

专知

75+阅读 · 2023年4月11日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【无人机】无人机的自主与智能控制

【无人机】无人机的自主与智能控制

产业智能官

53+阅读 · 2017年11月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

331+阅读 · 2017年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高动态编队无人机自主高精度时间同步方法研究

国家自然科学基金

11+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

Drones that Think on their Feet: Sudden Landing Decisions with Embodied AI

Arxiv

0+阅读 · 2月19日

Composable Model-Free RL for Navigation with Input-Affine Systems

Arxiv

0+阅读 · 2月13日

Integrated Sensing, Communication, and Control for UAV-Assisted Mobile Target Tracking

Arxiv

0+阅读 · 2月5日

From Forecast to Action: Uncertainty-Aware UAV Deployment for Ocean Drifter Recovery

Arxiv

0+阅读 · 2月2日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

Communication-Free Collective Navigation for a Swarm of UAVs via LiDAR-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 1月20日

3D UAV Trajectory Design for Fair and Energy-Efficient Communication: A Deep Reinforcement Learning Technique

Arxiv

0+阅读 · 1月16日

Cooperative UAVs for Remote Data Collection under Limited Communications: An Asynchronous Multiagent Learning Framework

Arxiv

0+阅读 · 1月15日

UAV-enabled Computing Power Networks: Task Completion Probability Analysis

Arxiv

0+阅读 · 1月15日

UAV-enabled Computing Power Networks: Design and Performance Analysis under Energy Constraints

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

图注意力网络

相关VIP内容

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

《无人机飞行控制中的人工智能：基于深度强化学习的固定翼无人机高度保持策略》

专知会员服务

23+阅读 · 2025年9月7日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

27+阅读 · 2025年5月15日

《全自主人工智能在军用无人机攻击或防御决策中的应用》

《全自主人工智能在军用无人机攻击或防御决策中的应用》

专知会员服务

70+阅读 · 2024年7月13日

无人机集群编队自主协同控制方法综述

无人机集群编队自主协同控制方法综述

专知会员服务

75+阅读 · 2024年4月15日

基于强化学习的无人机集群对抗策略推演仿真

基于强化学习的无人机集群对抗策略推演仿真

专知会员服务

69+阅读 · 2024年4月14日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

83+阅读 · 2023年6月27日

深度强化学习的无人作战飞机空战机动决策

深度强化学习的无人作战飞机空战机动决策

专知会员服务

120+阅读 · 2023年5月22日

面向任务的无人机集群自主决策技术

面向任务的无人机集群自主决策技术

专知会员服务

189+阅读 · 2023年4月15日

《使用强化学习的无人作战飞行器机队协同规划》12页论文

《使用强化学习的无人作战飞行器机队协同规划》12页论文

专知会员服务

164+阅读 · 2022年11月14日

【首本无人机UAVs硬核书】《通信、监视和交付无人机自主导航与部署》，275页pdf

【首本无人机UAVs硬核书】《通信、监视和交付无人机自主导航与部署》，275页pdf

专知会员服务

98+阅读 · 2022年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

国外有人/无人机协同作战研究现状与发展趋势

国外有人/无人机协同作战研究现状与发展趋势

专知

75+阅读 · 2023年4月11日

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

推荐！《用机器学习发掘反综合防空系统（IADS）的蜂群自主行为》【博士论文】2022最新325页论文

专知

28+阅读 · 2022年10月22日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

国外有人/无人平台协同作战概述

国外有人/无人平台协同作战概述

无人机

122+阅读 · 2019年5月28日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【无人机】无人机的自主与智能控制

【无人机】无人机的自主与智能控制

产业智能官

53+阅读 · 2017年11月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Drones that Think on their Feet: Sudden Landing Decisions with Embodied AI

Arxiv

0+阅读 · 2月19日

Composable Model-Free RL for Navigation with Input-Affine Systems

Arxiv

0+阅读 · 2月13日

Integrated Sensing, Communication, and Control for UAV-Assisted Mobile Target Tracking

Arxiv

0+阅读 · 2月5日

From Forecast to Action: Uncertainty-Aware UAV Deployment for Ocean Drifter Recovery

Arxiv

0+阅读 · 2月2日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

Communication-Free Collective Navigation for a Swarm of UAVs via LiDAR-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 1月20日

3D UAV Trajectory Design for Fair and Energy-Efficient Communication: A Deep Reinforcement Learning Technique

Arxiv

0+阅读 · 1月16日

Cooperative UAVs for Remote Data Collection under Limited Communications: An Asynchronous Multiagent Learning Framework

Arxiv

0+阅读 · 1月15日

UAV-enabled Computing Power Networks: Task Completion Probability Analysis

Arxiv

0+阅读 · 1月15日

UAV-enabled Computing Power Networks: Design and Performance Analysis under Energy Constraints

Arxiv

0+阅读 · 1月15日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

331+阅读 · 2017年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高动态编队无人机自主高精度时间同步方法研究

国家自然科学基金

11+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

27+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

微信扫码咨询专知VIP会员