Recent progress in multimodal reasoning has enabled agents that can interpret imagery, connect it with language, and perform structured analytical tasks. Extending such capabilities to the remote sensing domain remains challenging, as models must reason over spatial scale, geographic structures, and multispectral indices while maintaining coherent multi-step logic. To bridge this gap, OpenEarthAgent introduces a unified framework for developing tool-augmented geospatial agents trained on satellite imagery, natural-language queries, and detailed reasoning traces. The training pipeline relies on supervised fine-tuning over structured reasoning trajectories, aligning the model with verified multistep tool interactions across diverse analytical contexts. The accompanying corpus comprises 14,538 training and 1,169 evaluation instances, with more than 100K reasoning steps in the training split and over 7K reasoning steps in the evaluation split. It spans urban, environmental, disaster, and infrastructure domains, and incorporates GIS-based operations alongside index analyses such as NDVI, NBR, and NDBI. Grounded in explicit reasoning traces, the learned agent demonstrates structured reasoning, stable spatial understanding, and interpretable behaviour through tool-driven geospatial interactions across diverse conditions. We report consistent improvements over a strong baseline and competitive performance relative to recent open and closed-source models.


翻译:近年来,多模态推理的进展使得智能体能够解释图像、将其与语言关联,并执行结构化分析任务。然而,将此类能力扩展到遥感领域仍面临挑战,因为模型必须在保持连贯多步逻辑的同时,对空间尺度、地理结构和多光谱指数进行推理。为弥合这一差距,OpenEarthAgent 提出了一个统一框架,用于开发基于卫星影像、自然语言查询和详细推理轨迹进行训练的工具增强型地理空间智能体。该训练流程依赖于对结构化推理轨迹的监督微调,使模型与经过验证的跨领域多步工具交互保持一致。配套数据集包含 14,538 个训练实例和 1,169 个评估实例,训练集中推理步骤超过 10 万步,评估集中推理步骤超过 7 千步。其覆盖城市、环境、灾害和基础设施等领域,并整合了基于 GIS 的操作以及 NDVI、NBR、NDBI 等指数分析。基于显式推理轨迹,所训练的智能体通过跨多样条件的工具驱动地理空间交互,展现出结构化推理、稳定的空间理解和可解释的行为。我们报告了相对于强基线的持续改进,以及与近期开源和闭源模型相比具有竞争力的性能表现。

0
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
52+阅读 · 2024年6月29日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员