**摘要:**地球观测(EO)分析范式正经历从静态深度学习模型向自主智能体化 AI(Agentic AI)的转变。尽管近期的视觉基座模型与多模态大语言模型在表征学习方面取得了显著进展,但在处理复杂的地理空间工作流时,它们往往缺乏必需的序列规划与主动工具编排能力。本综述呈现了遥感领域智能体化 AI 的首次全面回顾。我们提出了一种统一的分类体系,旨在区分单智能体副驾驶(Copilots)与多智能体系统,并深入分析了规划机制、检索增强生成(RAG)及记忆结构等架构基础。此外,我们回顾了新兴的基准测试,这些测试将评估标准从像素级精度提升至轨迹感知推理的正确性。通过批判性地审视系统在接地、安全性及编排方面的局限性,本研究为开发鲁棒、自主的地理空间智能勾勒了战略路线图。

1. 引言 (Introduction)

地球观测(EO)技术产生了海量的多模态遥感(RS)档案 [153],涵盖了从超高分辨率(VHR)光学影像到合成孔径雷达(SAR)[92]、红外 [95] 及高光谱数据 [121]。这些数据流支撑着环境监测 [98]、灾难管理 [86] 及资源勘探等关键应用,使得自动化分析变得至关重要。深度学习模型是解释此类数据的主要工具,广泛应用于场景分类 [151]、异常检测 [60, 127]、变化检测 [30] 及定位 [62]。 随着该领域的规模扩展,研究重点正转向在多样化数据集上预训练以学习通用表征的视觉基座模型(VFMs)[27, 33],代表性示例包括 SimCLR [21] 和掩码自编码器(MAE)[47]。视觉 Transformer(ViTs)[34] 通过对图像分块(Patches)应用自注意力机制 [122] 促进了这一进程,并已成功适配至遥感任务 [90, 102, 132]。尽管取得了这些进步,标准基座模型仍存在局限性。研究表明,MAE 风格的遥感模型往往侧重于低级纹理而非全局空间结构 [63, 139],从而降低了在分布偏移下的鲁棒性 [97]。 此外,许多现有模型严重依赖标注数据和特定任务的微调。为缓解这种标注依赖,CLIP [100] 等视觉语言模型(VLMs)通过对齐图像与文本编码器,实现了开放词汇检测与零样本分割 [20, 75, 113]。多模态大语言模型(MLLMs)[5, 58, 130] 进一步扩展了这些能力,通过将视觉编码器与大语言模型(LLMs)[9, 17] 耦合以支持复杂推理。然而,由于传感器、观测几何和语义差异,通用模型直接应用于遥感数据时性能往往会下降。 为了弥补这一领域鸿沟,近期研究开发了遥感特定的 MLLMs,如 GeoChat [67]、LHRSBot [93]、RS-LLaVA [11]、SkySenseGPT [81] 和 RingMoGPT [54]。这些系统适配了 LLaVA [76] 或 BLIP-2 [70] 等架构,通常采用低秩适配(LoRA)[52] 在地理空间指令上进行微调,以实现字幕生成(Captioning)和视觉问答(VQA)。然而,这些模型仍是静态的;虽然它们能回答单轮查询,但缺乏长程记忆、序列规划或与地理空间库动态交互的原生能力。因此,它们无法处理涉及检索、预处理和分析的复杂多步工作流,而这正是现实世界地理空间操作的特征。这一局限性凸显了从静态 MLLMs 向智能体系统转型的必要性。 AI 智能体是能够感知输入、对任务进行推理并规划行动以达成目标的自主实体。在以 LLM 为核心的架构中,智能体在“感知-推理-行动”循环中结合了规划器、工具接口和记忆,这一范式已改写了医疗保健 [4] 和操作系统 [1, 89] 的工作流。在地理空间 AI 中,RS-Agent [140]、GeoAgent [56]、Change-Agent [74] 和 MapBot [134] 等系统通过利用 LLM 控制器解析查询并编排工具进行分类、分割和地图编辑,实现了这一目标。除了单智能体副驾驶,该领域正向多智能体编排和真实环境扩展。显著进展包括 GeoLLM-Engine [112]、多智能体系统 GeoLLM-Squad [114],以及 RingMo-Agent [54] 和 MineAgent [144] 等专用流水线。虽然现有的综述侧重于遥感基座模型和 MLLMs,但它们通常忽视了遥感智能体系统的自主能力。据我们所知,本文是首篇专门针对遥感领域智能体化 AI 的综述,提供了智能体类型的分类体系、模型与应用的对比分析,以及从系统层面透视工具、检索增强生成(RAG)流水线、记忆机制、数据集和基准测试。此外,我们将这些组件与新兴的规划及安全性评估协议相结合,并阐明了在地理空间接地、长程记忆和可信遥感智能体方面的开放性挑战与未来方向。

成为VIP会员查看完整内容
17

相关内容

遥感中基于深度学习的领域自适应方法:全面综述
专知会员服务
19+阅读 · 2025年10月20日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
51+阅读 · 2024年9月4日
遥感基础模型发展综述与未来设想
专知会员服务
19+阅读 · 2024年8月13日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
遥感中基于深度学习的领域自适应方法:全面综述
专知会员服务
19+阅读 · 2025年10月20日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
迈向通用工业智能:工业物联网增强的持续大模型综述
专知会员服务
51+阅读 · 2024年9月4日
遥感基础模型发展综述与未来设想
专知会员服务
19+阅读 · 2024年8月13日
相关资讯
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员