Remote sensing vision-language models have advanced Earth observation understanding, but most existing work remains centered on RGB imagery, leaving the complementary information in infrared data underexplored. Infrared images provide distinctive cues, including thermal intensity structures, object boundaries, and illumination-invariant scene features, which can enrich visual-language learning beyond conventional RGB observations. However, a large-scale RGB-infrared-text dataset for remote sensing vision-language modeling is still absent. To address this gap, we introduce FusionRS, the first large-scale RGB-infrared-text dataset designed for dual-modal vision-language learning in remote sensing. FusionRS is constructed by translating diverse public RGB remote sensing images into infrared-style counterparts, forming aligned RGB-IR image pairs. Each pair is associated with conventional scene captions and IR-aware captions that explicitly describe infrared-specific visual properties while preserving semantic content. Based on FusionRS, we train dual-modal vision-language foundation models for RGB-IR joint understanding. We first train CLIP-style models for RGB-IR-text alignment, and then fine-tune generative VLMs for dual-modal RGB-IR captioning. Experiments show that FusionRS improves RGB-IR alignment, infrared-to-text retrieval, and dual-modal captioning over RGB-only and non-IR-aware training settings. Ablation studies further verify that IR-aware captions are crucial for strengthening infrared-language alignment, highlighting the importance of modality-specific textual supervision for more scalable RGB-infrared remote sensing vision-language representation learning.


翻译:遥感视觉-语言模型推进了对地球观测的理解,但现有研究多聚焦于RGB图像,红外数据中的互补信息尚未被充分发掘。红外图像提供独特线索,包括热强度结构、物体边界及光照不变的场景特征,能丰富超越传统RGB观测的视觉-语言学习。然而,目前缺乏面向遥感视觉-语言建模的大规模RGB-红外-文本数据集。为填补这一空白,我们构建了FusionRS——首个面向遥感双模态视觉-语言学习的大规模RGB-红外-文本数据集。FusionRS通过将多样的公开RGB遥感图像转换为红外风格对应图像,形成配对的RGB-IR图像对。每对图像关联常规场景描述与红外感知描述,后者在保留语义内容的同时明确描述红外特有的视觉属性。基于FusionRS,我们训练用于RGB-IR联合理解的双模态视觉-语言基础模型。首先训练CLIP风格模型实现RGB-IR-文本对齐,随后微调生成式视觉语言模型以完成双模态RGB-IR描述生成。实验表明,相较仅用RGB图像及未引入红外感知的训练设置,FusionRS改进了RGB-IR对齐、红外到文本检索及双模态描述生成。消融研究进一步验证红外感知描述对强化红外-语言对齐至关重要,凸显了模态特定文本监督在可扩展的RGB-红外遥感视觉-语言表示学习中的重要性。

0
下载
关闭预览

相关内容

视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
光学遥感图像目标检测数据集综述
专知会员服务
31+阅读 · 2024年3月29日
遥感跨模态智能解译:模型、数据与应用
专知会员服务
84+阅读 · 2023年6月4日
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
最新开源 RGBD+IMU数据集:FMDataset
计算机视觉life
42+阅读 · 2019年9月21日
专家报告|高光谱遥感信息提取方法
中国图象图形学报
12+阅读 · 2019年7月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员