Remote sensing (RS) images from multiple modalities and platforms exhibit diverse details due to differences in sensor characteristics and imaging perspectives. Existing vision-language research in RS largely relies on relatively homogeneous data sources. Moreover, they still remain limited to conventional visual perception tasks such as classification or captioning. As a result, these methods fail to serve as a unified and standalone framework capable of effectively handling RS imagery from diverse sources in real-world applications. To address these issues, we propose RingMo-Agent, a model designed to handle multi-modal and multi-platform data that performs perception and reasoning tasks based on user textual instructions. Compared with existing models, RingMo-Agent 1) is supported by a large-scale vision-language dataset named RS-VL3M, comprising over 3 million image-text pairs, spanning optical, SAR, and infrared (IR) modalities collected from both satellite and UAV platforms, covering perception and challenging reasoning tasks; 2) learns modality adaptive representations by incorporating separated embedding layers to construct isolated features for heterogeneous modalities and reduce cross-modal interference; 3) unifies task modeling by introducing task-specific tokens and employing a token-based high-dimensional hidden state decoding mechanism designed for long-horizon spatial tasks. Extensive experiments on various RS vision-language tasks demonstrate that RingMo-Agent not only proves effective in both visual understanding and sophisticated analytical tasks, but also exhibits strong generalizability across different platforms and sensing modalities.


翻译:由于传感器特性与成像视角的差异,来自多平台与多模态的遥感影像呈现出多样化的细节特征。现有遥感领域的视觉-语言研究主要依赖相对同质的数据源,且大多仍局限于分类、描述生成等传统视觉感知任务。因此,这些方法难以在实际应用中作为统一且独立的框架有效处理多源遥感影像。针对上述问题,本文提出RingMo-Agent模型,该模型能够处理多模态、多平台数据,并基于用户文本指令执行感知与推理任务。相较于现有模型,RingMo-Agent具有以下特点:1)依托大规模遥感视觉-语言数据集RS-VL3M进行训练,该数据集包含超过300万对图像-文本样本,涵盖卫星与无人机平台采集的光学、合成孔径雷达与红外模态数据,同时包含感知任务与具有挑战性的推理任务;2)通过引入分离的嵌入层构建异构模态的独立特征表示,减少跨模态干扰,从而学习具有模态适应性的表征;3)通过引入任务特定标记并采用基于标记的高维隐状态解码机制,实现对长时序空间任务的统一建模。在多种遥感视觉-语言任务上的大量实验表明,RingMo-Agent不仅在视觉理解与复杂分析任务中均表现优异,同时在不同平台与传感模态间展现出强大的泛化能力。

0
下载
关闭预览

相关内容

《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
跨域遥感场景解译研究进展
专知会员服务
42+阅读 · 2024年3月19日
遥感跨模态智能解译:模型、数据与应用
专知会员服务
84+阅读 · 2023年6月4日
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
专家报告|高光谱遥感信息提取方法
中国图象图形学报
12+阅读 · 2019年7月14日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
跨域遥感场景解译研究进展
专知会员服务
42+阅读 · 2024年3月19日
遥感跨模态智能解译:模型、数据与应用
专知会员服务
84+阅读 · 2023年6月4日
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员