Remote-sensing vision-language models (RS-VLMs) have advanced Earth-observation analysis toward visual interpretation and instruction-following, yet fall short of operational geo-intelligence, which demands tool-grounded spatial reasoning and structured, evidence-backed decisions. We introduce GeoDisaster, an operational geospatial disaster reasoning benchmark with 2,921 verified instances across 43 question types and five task families: deforestation monitoring, multi-hazard analysis, building-damage assessment, flood-safe routing, and Sentinel-1 SAR flood monitoring. Instances integrate heterogeneous EO/GIS evidence-optical and SAR imagery, raster masks, vector geometries, road networks, and exposure layers-spanning hazard detection, damage assessment, exposure estimation, and diagnostic report generation. Ground-truth answers are grounded in executable geospatial workflows and deterministic consistency checks, removing the need for language-model annotation. We further propose an orchestrated multi-agent framework with 18 disaster-oriented tools, where role-specialized agents coordinate through explicit execution contracts, aligned via Role-Contract Expectation Alignment (RCEA): failure-aware supervised fine-tuning combined with contract-grounded reinforcement learning over dense step-level signals. Experiments show that GeoDisaster challenges existing RS-VLMs and agentic systems, while RCEA improves tool use, evidence grounding, state consistency, and decision generation.


翻译:遥感视觉语言模型(RS-VLMs)推动了地球观测分析向视觉理解与指令遵循方向发展,但在需要工具驱动空间推理和结构化、证据支撑决策的操作型地理智能方面仍存在不足。我们提出GeoDisaster——一个包含2,921个验证实例、涵盖43种问题类型及五个任务族的操作型地理空间灾害推理基准测试:森林砍伐监测、多灾种分析、建筑损毁评估、洪水安全路径规划以及Sentinel-1 SAR洪水监测。实例融合了异构的EO/GIS证据——光学与SAR影像、栅格掩膜、矢量几何、道路网络及暴露度图层——覆盖灾害检测、损毁评估、暴露度估计及诊断报告生成。真实答案基于可执行地理空间工作流与确定性一致性检查,无需语言模型标注。我们进一步提出一个包含18种灾害导向工具的编排型多智能体框架,其中角色专业化智能体通过显式执行契约协调,并通过角色契约期望对齐(RCEA)实现一致性:即基于对密集步骤级信号的失败感知监督微调与契约引导强化学习相结合。实验表明,GeoDisaster对现有RS-VLMs与智能体系统构成挑战,而RCEA方法显著提升了工具使用、证据关联、状态一致性与决策生成能力。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
Elasticsearch地理信息存储及查询之Geo_Point
Analysys易观
13+阅读 · 2018年12月29日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员