RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation - 专知论文

会员服务 ·

0

分割 · 适配 · 嵌入 · 掩码 · 对齐 ·

RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation

翻译：RS2-SAM2：面向遥感指代分割的定制化SAM2模型

Fu Rong,Meng Lan,Qian Zhang,Lefei Zhang

from arxiv, AAAI 2026

Referring Remote Sensing Image Segmentation (RRSIS) aims to segment target objects in remote sensing (RS) images based on textual descriptions. Although Segment Anything Model 2 (SAM2) has shown remarkable performance in various segmentation tasks, its application to RRSIS presents several challenges, including understanding the text-described RS scenes and generating effective prompts from text. To address these issues, we propose \textbf{RS2-SAM2}, a novel framework that adapts SAM2 to RRSIS by aligning the adapted RS features and textual features while providing pseudo-mask-based dense prompts. Specifically, we employ a union encoder to jointly encode the visual and textual inputs, generating aligned visual and text embeddings as well as multimodal class tokens. A bidirectional hierarchical fusion module is introduced to adapt SAM2 to RS scenes and align adapted visual features with the visually enhanced text embeddings, improving the model's interpretation of text-described RS scenes. To provide precise target cues for SAM2, we design a mask prompt generator, which takes the visual embeddings and class tokens as input and produces a pseudo-mask as the dense prompt of SAM2. Experimental results on several RRSIS benchmarks demonstrate that RS2-SAM2 achieves state-of-the-art performance.

翻译：遥感指代图像分割（RRSIS）旨在根据文本描述对遥感图像中的目标物体进行分割。尽管Segment Anything Model 2（SAM2）在各种分割任务中展现出卓越性能，但其在RRSIS中的应用仍面临多项挑战，包括理解文本描述的遥感场景以及从文本生成有效的提示。为解决这些问题，我们提出**RS2-SAM2**——一种通过对齐适配的遥感特征与文本特征，并提供基于伪掩码的密集提示，从而将SAM2适配至RRSIS任务的新框架。具体而言，我们采用联合编码器对视觉与文本输入进行共同编码，生成对齐的视觉嵌入、文本嵌入以及多模态类别标记。通过引入双向层次融合模块，使SAM2适配遥感场景，并将适配后的视觉特征与视觉增强的文本嵌入对齐，从而提升模型对文本描述遥感场景的理解能力。为向SAM2提供精确的目标线索，我们设计了掩码提示生成器，该模块以视觉嵌入和类别标记为输入，生成伪掩码作为SAM2的密集提示。在多个RRSIS基准数据集上的实验结果表明，RS2-SAM2实现了最先进的性能。

0

相关内容

多模态指代分割综述

多模态指代分割综述

专知会员服务

17+阅读 · 2025年8月4日

遥感图像超分辨率技术进展：综合综述

遥感图像超分辨率技术进展：综合综述

专知会员服务

12+阅读 · 2025年5月31日

SAM2 用于图像和视频分割：全面综述

SAM2 用于图像和视频分割：全面综述

专知会员服务

17+阅读 · 2025年3月22日

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

专知会员服务

34+阅读 · 2024年10月25日

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

专知会员服务

53+阅读 · 2023年6月16日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

专知会员服务

62+阅读 · 2023年3月28日

《遥感》书籍三部曲！《遥感数据表征、分类和精度》、《土地资源的遥感监测、建模和制图》《水资源、灾害和城市研究的遥感》

《遥感》书籍三部曲！《遥感数据表征、分类和精度》、《土地资源的遥感监测、建模和制图》《水资源、灾害和城市研究的遥感》

专知会员服务

46+阅读 · 2023年3月23日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

专知

24+阅读 · 2018年1月2日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多特征与水平集融合的遥感图像分割算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

VIPA: Visual Informative Part Attention for Referring Image Segmentation

Arxiv

0+阅读 · 2月16日

RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation

Arxiv

0+阅读 · 2月11日

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

Arxiv

0+阅读 · 2月10日

FarmMind: Reasoning-Query-Driven Dynamic Segmentation for Farmland Remote Sensing Images

Arxiv

0+阅读 · 1月30日

RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

Arxiv

0+阅读 · 1月29日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing

Arxiv

0+阅读 · 1月25日

ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation

Arxiv

0+阅读 · 1月23日

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

Arxiv

0+阅读 · 1月16日

Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

1+阅读 · 45分钟前

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

1+阅读 · 49分钟前

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

7+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

5+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

4+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

7+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

10+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

11+阅读 · 5月30日

相关VIP内容

多模态指代分割综述

多模态指代分割综述

专知会员服务

17+阅读 · 2025年8月4日

遥感图像超分辨率技术进展：综合综述

遥感图像超分辨率技术进展：综合综述

专知会员服务

12+阅读 · 2025年5月31日

SAM2 用于图像和视频分割：全面综述

SAM2 用于图像和视频分割：全面综述

专知会员服务

17+阅读 · 2025年3月22日

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

专知会员服务

34+阅读 · 2024年10月25日

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合

专知会员服务

53+阅读 · 2023年6月16日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

【干货书】遥感图像分析、分类与变化检测(第4版)，530页pdf

专知会员服务

62+阅读 · 2023年3月28日

《遥感》书籍三部曲！《遥感数据表征、分类和精度》、《土地资源的遥感监测、建模和制图》《水资源、灾害和城市研究的遥感》

《遥感》书籍三部曲！《遥感数据表征、分类和精度》、《土地资源的遥感监测、建模和制图》《水资源、灾害和城市研究的遥感》

专知会员服务

46+阅读 · 2023年3月23日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

比利时发布用于实时战场军事装备识别的离线人工智能系统

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

专知

24+阅读 · 2018年1月2日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

相关论文

VIPA: Visual Informative Part Attention for Referring Image Segmentation

Arxiv

0+阅读 · 2月16日

RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation

Arxiv

0+阅读 · 2月11日

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

Arxiv

0+阅读 · 2月10日

FarmMind: Reasoning-Query-Driven Dynamic Segmentation for Farmland Remote Sensing Images

Arxiv

0+阅读 · 1月30日

RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

Arxiv

0+阅读 · 1月29日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing

Arxiv

0+阅读 · 1月25日

ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation

Arxiv

0+阅读 · 1月23日

SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

Arxiv

0+阅读 · 1月16日

Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

Arxiv

0+阅读 · 1月15日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多特征与水平集融合的遥感图像分割算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员