OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

摘要：多模态推理领域的近期进展赋予了智能体解析图像、融合图文信息并执行结构化分析任务的能力。然而，由于模型需在维持连贯的多步逻辑的同时，对空间尺度、地理结构及多光谱指数进行深度推理，将此类能力迁移至遥感（Remote Sensing）领域仍面临巨大挑战。为弥补这一缺憾，OpenEarthAgent 提出了一种统一框架，旨在开发基于卫星图像、自然语言指令及详细推理轨迹（Reasoning Traces）训练的工具增强型地理空间智能体。

该训练管线核心在于对结构化推理轨迹进行监督微调（SFT），从而使模型能够与多样化分析场景下经校准的多步工具交互逻辑保持对齐。随附语料库包含 14,538 组训练实例与 1,169 组评估实例，其中训练集推理步骤超 10 万步，评估集超 7 千步。该数据集涵盖城市规划、环境监测、灾害响应及基础设施建设等多个领域，并整合了 GIS 空间运算及多种光谱指数分析（如 NDVI、NBR 和 NDBI）。实验结果表明，通过显式推理轨迹的约束，所构建的智能体在多变的地理空间环境下，展现出卓越的结构化推理能力、稳定的空间感知力以及基于工具驱动的可解释行为。相比于强基线模型，本框架实现了显著的性能提升，且与当前主流的开源及闭源模型相比，亦具备极强的竞争力。

1 引言

视觉表示学习的演化路径正经历从静态感知（Static Perception）向交互式多模态推理（Interactive Multi-modal Reasoning）的范式迁移。早期以 DINO [3] 和 MAE [13] 为代表的单阶段（Single-shot）框架，通过自监督学习目标奠定了大规模视觉理解的基础，在无需显式语言推理或交互的情况下学习到了强泛化性的图像编码器。受此类成果启发，遥感社区将该范式引入地球观测（EO）领域，涌现出如 Prithvi [15]、Copernicus-FM [40]、Galileo [36] 等模型，将表示学习的尺度扩展至全球多源传感器数据。尽管这些“地球量级”的视觉模型在跨空间分辨率与跨模态迁移方面表现卓越，其预测模式仍局限于以感知为中心，侧重于特征识别而非结构化推理。与此同时，多模态大模型（LMMs）已跨越了纯感知阶段。BLIP-2 [18]、InstructBLIP [5]、LLaVA-OneVision [17] 等架构通过将语言模型扩展至视觉域，实现了具备语义对齐（Grounded）的图像理解。在此背景下，遥感领域的视觉语言模型（VLM）应运而生，旨在使多模态推理适配地理空间数据。早期研究如 RemoteCLIP [21]、SkySenseGPT [23] 和 GeoChat [16]，通过大规模图文对及指令遵循数据集实现了遥感领域的跨模态对齐。近期，EarthDial [31] 通过扩展光学、SAR、热红外及时间序列等多模态对齐，进一步推动了分类、描述及变化分析的统一推理。然而，尽管现有的遥感 VLM 耦合了语言与感知，其输出仍多偏向描述性，缺乏显式的结构化推理逻辑。后续以推理为中心的方法（如 ReAct [47]、DeepSeek-R1 [10] 和 VLM-R1 [30]）引入了结构化规划，并在特定场景下实现了工具驱动推理，从而将静态感知转化为有序的多步任务执行。OpenThinkIMG [33] 等研究通过多步“视觉-工具”交互统一了上述进展，使模型能够通过可执行的推理轨迹（Reasoning Trajectories）迭代地进行“图像化思考”。受此启发，ThinkGeo [29] 与 Earth-Agent [7] 开始探索地球观测领域的工具增强推理。尽管它们证明了大模型具备规划分析链的能力，但在地理空间对齐（Geospatial Grounding）、坐标一致性以及物理可验证的输出方面仍面临严峻挑战。这些局限性凸显了开发能够整合感知与显式、可解释推理的地理对齐智能体（Geographically Grounded Agents）的紧迫性。基于此，我们构建了一个综合性的智能体语料库与训练框架。该框架集成了 GIS 图层、指数驱动计算（Index-driven Computations）以及包含光学和 SAR 模态的多源传感器影像，旨在支持广泛的地球观测推理任务。我们的数据集包含“图像-查询-推理轨迹”训练实例，并设有专门的预留评估集（Held-out Evaluation Set），用于基准测试模型在不同地理空间场景下的逻辑一致性与推理性能。数据覆盖城市基础设施、环境监测、灾害评估、土地利用制图及交通分析等领域，并整合了 GIS 空间运算（如距离、面积、分区统计）以及光谱指数分析（如 NDVI、NBR 和 NDBI）。每个样本均提供显式的推理轨迹，将多个工具调用、中间状态与最终结果相连结，使智能体能够学习结构化、可解释的工作流，而非仅产生静态预测。为评估模型的泛化性与推理忠实度，我们对 GPT 系列 [25]、Qwen [46]、InternLM [2] 及其他前沿多模态大模型进行了基准测试。我们的数据集通过统一的数据采集管线构建，每种模态均经过问题合成与自动化验证，以确保推理多样性、空间对齐性及跨源一致性。这一大规模工具增强语料库弥合了 GIS 分析与遥感感知之间的鸿沟，为评估结构化地理空间推理提供了统一平台。

本研究的主要贡献如下：

统一的数据构建管线：提出一种系统化流程，通过问题合成与自动验证，整合了多源传感器影像（RGB、SAR）、GIS 图层及光谱指数计算。 * 结构化推理对齐框架：建立了一种监督训练方案，实现多步工具交互的逻辑对齐，确保推理流的一致性与地理空间决策的准确性（见图 1）。 * 综合性多模态语料库：发布包含 14,538 个训练实例和 1,169 个评估任务的数据集，为研究推理型与非推理型模型在空间推理、对齐及可解释性方面的表现确立了基准。

成为VIP会员查看完整内容