综述 | 状态空间模型遇见遥感:SSM/Mamba 如何重塑遥感视觉任务?

导读

状态空间模型(State Space Models, SSMs)近两年在视觉领域快速升温,尤其是以 Mamba 为代表的选择性状态空间模型,让“长序列建模 + 线性复杂度”重新成为计算机视觉和遥感智能的重要方向。遥感图像天然具有大幅面、高分辨率、多模态、多时相、密集预测、小目标分散等特点,这些特点恰好放大了 Transformer 二次复杂度和局部卷积感受野不足的问题,也给 SSM 带来了非常明确的应用切入点。 这篇综述《State Space Models Meet Remote Sensing: A Survey》系统梳理了 2024 年以来 SSM/Mamba 在遥感领域的发展:从 SSM 到 Vision-Mamba 的基础脉络,到分类、分割、检测、变化检测、超分、去噪去雾、全色锐化等任务应用,再到扫描策略、混合架构、冗余移除、多模态融合、基础组件改造等模型设计方法。论文还进一步讨论了 SSM 遥感基础模型、边缘部署、大规模影像处理、遥感视觉语言模型和当前局限。 这篇综述的核心价值在于,它不是简单罗列 Mamba 遥感论文,而是把遥感任务需求和 SSM 结构特性对应起来:遥感需要长距离上下文、全局一致性和高效密集预测;SSM 提供线性复杂度、选择性信息传播和长序列建模能力;而真正决定效果的,是如何设计扫描路径、融合多模态信息,并用 CNN/Transformer/GNN 等结构补足 SSM 的局部纹理和多尺度能力。

论文信息

论文标题:State Space Models Meet Remote Sensing: A Survey 作者:Qinzhe Yang, Chenyang Liu, Jia Xu, Zhenwei Shi, Zhengxia Zou 论文链接:https://arxiv.org/abs/2606.25329 PDF:https://arxiv.org/pdf/2606.25329 代码与持续更新:https://github.com/QinzheYang/Awesome-RS-State-Space-Model 论文类型:遥感智能、状态空间模型、Mamba、综述

1 Introduction|引言

为什么遥感需要重新审视状态空间模型

SSM 被重新带回深度学习视野,主要是因为它能够以接近线性的计算复杂度处理长序列。相比自注意力机制随 token 数量平方增长的开销,SSM 更适合长文本、大图像和大范围空间建模。遥感图像往往覆盖广阔地理区域,单幅图像包含大量地物、纹理和空间结构,把图像展开成序列后,长度会迅速增大,这使 SSM 的效率优势变得很有吸引力。 遥感任务还有三个典型特征。第一,很多任务属于密集预测,例如语义分割、变化检测、超分和全色锐化,需要模型同时保持全局一致性和局部边界细节。第二,遥感数据具有多模态属性,包括光学影像、SAR、HSI、MSI、全色图像、多时相影像等,不同模态之间存在空间、光谱和时间维度的复杂耦合。第三,遥感目标经常呈现小尺度、稀疏分布、方向多变和背景复杂等特点,单一局部算子容易漏掉长距离关联,而单纯 Transformer 又面临计算成本问题。 因此,SSM 在遥感中的兴起不是偶然。它提供了一条介于 CNN 和 Transformer 之间的路线:既能进行长距离信息传播,又比全局注意力更高效;既能作为主干网络,也能作为 U-Net、CNN、Transformer 或多模态融合模块中的关键组件。

综述覆盖范围

论文将纳入范围限定为两类工作:一类是明确面向遥感数据或遥感任务设计的 SSM/Mamba 方法;另一类是使用 SSM/Mamba 派生模块作为主要建模组件的方法。那些仅引用 SSM 概念、但没有真正提出 SSM-based 遥感方法的论文不在重点范围内。 作者从三个维度展开分析:其一是任务应用,梳理不同遥感任务中 SSM 的使用方式;其二是架构设计,总结扫描策略、混合结构、内部组件改造和多模态融合;其三是挑战与机会,讨论 SSM 遥感基础模型、边缘部署和遥感视觉语言模型等未来方向。

2 From State Space Model To Vision-Mamba|从状态空间模型到视觉Mamba

状态空间模型的基本思想

SSM 最初来自控制系统和信号处理,其核心是用隐藏状态来描述序列动态。给定输入序列,模型通过状态转移方程更新内部状态,再通过输出方程生成当前输出。现代 SSM 将这一机制转化为可训练的深度网络模块,使其能够建模长距离依赖,同时保持比自注意力更低的复杂度。 Mamba 的关键突破在于选择性机制。传统 SSM 的参数往往相对固定,Mamba 让参数随输入动态变化,使模型可以选择性地传播或遗忘信息。这一点对遥感很重要:遥感图像中有大量背景、噪声和重复纹理,模型需要保留真正有判别力的道路、建筑、舰船、农作物边界或变化区域,而不是把所有 token 等权处理。

从序列到视觉

图像本身不是一维序列,但可以通过扫描方式展开为序列。Vision-Mamba 类方法通常把图像 patch 或特征图按一定顺序输入 SSM 模块,再恢复为空间结构。问题在于,遥感图像没有天然的单向序列顺序。如果只按一条路径扫描,模型容易产生方向偏置,无法充分融合水平、垂直、局部、全局、光谱和时间信息。 这也是遥感 SSM 研究中“扫描策略”成为核心议题的原因。不同于普通自然图像,遥感影像既要处理二维空间,又要处理高光谱通道、多时相序列和跨模态信息。如何设计路径,使 SSM 在保持效率的同时理解空间结构,是后续大量方法的共同出发点。

遥感任务统计

论文统计了代表性 SSM 遥感研究的任务分布与引用情况。分类、变化检测和分割是当前最活跃的方向;目标检测、超分、全色锐化、去噪去雾等任务也已经形成一批代表性方法。这说明 SSM 在遥感中已经不再是单点尝试,而是逐渐发展为跨任务的通用建模组件。

3 SSMs in Remote Sensing Tasks|遥感任务中的状态空间模型

图像分类

遥感图像分类尤其是高光谱分类,需要同时捕捉空间上下文和光谱维度信息。论文将相关工作概括为两类:一类关注扫描策略,通过多方向、交叉、分段或光谱-空间联合扫描来增强全局上下文;另一类关注混合架构,把 SSM 与 CNN、注意力或局部融合模块结合起来,弥补纯 SSM 对局部纹理和细粒度边界的不足。 典型方法包括 RSMamba、HSIMamba、SpectralMamba、S2Mamba、SS-Mamba、DualMamba、GraphMamba 等。它们共同说明,高光谱场景并不适合简单把图像拉平成单序列;更有效的方式是显式区分空间、光谱和类别结构,并通过选择性扫描建模不同维度的依赖关系。

语义分割

遥感语义分割要求对每个像素进行类别预测,既需要全局场景理解,也需要精确边界。SSM 的长距离建模有助于提升全局一致性,例如在大面积建筑、道路、农田、水体场景中建立远距离关联。但分割任务对局部边界非常敏感,纯 SSM 容易丢失细节,因此很多方法选择 U-Net 结构或 CNN-SSM 混合结构。 论文提到,UNetMamba、Samba、RS3Mamba、RTMamba 等方法在 LoveDA 等数据集上展示了竞争力。它们的共同点是通过多尺度特征、跳连融合或局部卷积补足 SSM 的空间细节表达。也就是说,分割任务中的 SSM 更像是高效全局建模模块,而不是完全替代所有局部算子。

目标检测

遥感目标检测面临小目标密集、尺度变化大、方向任意、背景复杂等问题。SSM 的优势在于能够扩大感受野,帮助模型在复杂背景中识别稀疏目标。但检测同样依赖局部纹理、边框定位和多尺度特征,因此现有方法多采用检测框架与 SSM 模块结合,例如在主干或颈部网络中引入 Mamba 结构。 论文将相关策略分为两类:一类利用 SSM 增强全局上下文,帮助小目标从大范围背景中凸显出来;另一类围绕区域、通道或多尺度结构设计混合模块,使 SSM 与检测头的局部定位能力协同。

变化检测

变化检测需要比较多时相遥感图像中的差异。SSM 在这里具有天然优势,因为它可以沿时间或空间-时间序列建模长期依赖。相关方法通常把双时相或多时相特征输入 SSM,通过选择性传播捕捉真正变化区域,同时抑制光照、季节、传感器差异等伪变化。 论文指出,CDmamba、M-CD、RSCama 等方法通过额外分支、多时相融合和差异特征建模,充分利用 SSM 对关键差异信息的捕捉能力。变化检测是 SSM 在遥感中非常契合的方向,因为它既需要全局一致性,也需要对局部变化保持敏感。

超分、去噪去雾与全色锐化

遥感图像超分、去噪、去雾和全色锐化都属于图像恢复增强任务。它们不仅要求生成清晰结果,还要保持地物结构、频域细节和跨模态一致性。SSM 在这类任务中常与频域变换、CNN 或多分支结构结合。 在超分中,FMSR 等方法将频域选择模块和 SSM 分支结合,用于处理大范围上下文和高频细节。在去噪去雾中,SSM 可帮助模型理解全局退化模式,减少局部处理带来的不一致。在全色锐化中,SSM 与门控机制、跨模态融合结合,用于融合高空间分辨率的全色图像和多光谱图像,但这种设计往往依赖特定模态关系,跨任务泛化仍需进一步验证。

4 Advancements of SSMs Architecture Design in Remote Sensing|遥感状态空间模型的架构设计进展

扫描策略

扫描策略是遥感 SSM 架构设计的核心。由于图像没有天然方向,单一路径扫描会带来方向偏置,也可能导致空间信息整合不足。论文总结了 23 类扫描机制,包括双向扫描、交叉扫描、连续二维扫描、全向选择性扫描、Hilbert 曲线扫描、Zigzag 扫描、多路径扫描、Shuffle 扫描、层级扫描、空间-光谱扫描、3D 双向扫描、时间交叉扫描和时空并行建模等。 这些扫描策略背后有一个共同目标:用尽可能低的复杂度,让一维 SSM 更好地理解二维、三维甚至时空多维遥感数据。对于二维图像,重点是保持空间连续性与多方向上下文;对于高光谱数据,重点是同时建模空间和光谱;对于多时相数据,重点是把时间变化与空间结构结合起来。

高层框架配置

论文将高层框架分为 Backbone-Centric 和 U-Net-based 两类。前者把 SSM 作为主干网络中的核心特征提取单元,强调层级表示、全局上下文和高效序列建模;后者把 SSM 插入 U-Net 编码器、解码器或跳连路径中,更强调多尺度融合和密集预测。 Backbone-Centric 方法适合构建通用特征抽取器,但多尺度融合机制可能不如 U-Net 自然。U-Net-based 方法在分割、超分、去雾等任务中表现较好,因为它天然适合保留低层细节和融合多尺度信息,但复杂分支也会增加训练和部署难度。

混合架构

纯 SSM 虽然擅长长距离建模,但在局部纹理、边缘、细粒度目标上并不总是最优。因此,遥感领域大量方法采用混合结构:SSM-CNN 用卷积补充局部感知;SSM-Transformer 用注意力增强全局交互或跨模态对齐;SSM-GNN 用图结构建模地物之间的关系。 这种混合路线已经成为当前遥感 SSM 的主流范式。更准确地说,SSM 负责远距离上下文和序列效率,CNN 负责局部纹理与边界,Transformer 负责灵活的全局交互,GNN 负责图结构关系。真正的难点不在于“是否融合”,而在于如何控制复杂度,并让不同模块贡献互补信息而不是相互冗余。

冗余移除

多方向扫描、多模态融合和混合分支会引入大量冗余信息。遥感影像中又常见噪声、背景重复和无关区域,如果不加筛选,模型可能在计算上浪费资源,并在语义上引入干扰。论文总结了自引导和交叉引导两类冗余移除机制。 自引导侧重在单一特征流内部筛除冗余;交叉引导则利用另一条分支的信息来指导当前分支,例如用空间特征引导光谱特征,或用光谱特征反向指导空间特征。门控机制在其中扮演关键角色,它决定哪些区域、通道或模态信息应被保留。

基础组件改造

论文将 SSM 内部结构改造归纳为四类:删除、修改、增加和补充。删除指去掉不必要的线性层或归一化层以降低计算量;修改指改变内部层、残差连接或扫描顺序;增加指引入额外分支,例如卷积分支、频域分支、空间/光谱分支;补充则是利用额外模态或视场信息增强原始 SSM。 这种组件级改造很重要,因为遥感任务对效率和稳定性都很敏感。轻率增加复杂模块可能破坏 SSM 的信息流,甚至抵消其效率优势。论文也强调,未来需要更理论化地理解哪些组件改造真正适合不同任务和模态。

多模态特征融合

遥感多模态融合包括像素级、特征级和决策级融合。对于 SSM 来说,当前研究主要集中在特征级融合,因为 SSM 更擅长在全局空间范围内传播信息,而多模态特征可以补充光谱、SAR、全色、多时相等维度的信息。 论文指出,现有 SSM 多模态融合方法通常通过跨模态特征对齐、门控选择、分支融合和冗余过滤来提升效果。但多模态融合也会带来训练成本增加、模态对齐困难和泛化受限等问题。未来需要更清晰地区分“任务驱动融合”和“通用模态融合”,避免每个任务都重新设计一套复杂结构。

5 Challenges, Opportunities and Limitations|挑战、机会与局限

遥感基础模型

遥感基础模型通常需要大规模预训练、跨区域泛化和多任务适配。当前主流遥感基础模型多基于 Transformer,但在超高分辨率、大范围密集预测和小目标分散场景中,Transformer 的计算成本很高。SSM 的线性复杂度和选择性建模能力,使其有潜力成为遥感基础模型的新主干。 论文认为,SSM-based 遥感基础模型面临三类问题:首先,需要全球尺度数据训练,以避免模型只适应少数地区;其次,需要解决超长序列遗忘问题,尤其是稀疏小目标和重复目标场景;再次,需要发展适合 SSM 的高效微调方法,因为现有 LoRA、Adapter 等主流参数高效微调技术并不总是直接适配 SSM。

边缘设备与大规模影像处理

遥感应用常常发生在资源受限或时效性要求高的场景,例如灾害监测、无人机边缘处理、卫星在轨处理和大规模区域制图。SSM 本身具有硬件友好的潜力,但遥感数据比普通图像更复杂,涉及 2D、3D、多模态和时序输入,因此仍需要专门的算子优化、传输算法和轻量化策略。 未来方向包括面向 SSM 结构的剪枝、蒸馏、量化,以及结合遥感噪声模拟的鲁棒蒸馏。通过硬件友好的状态更新和输出方程并行化,SSM 有机会在大图像和边缘部署中获得更强实用性。

遥感视觉语言模型

遥感视觉语言模型需要处理复杂场景和长文本描述。CLIP 类对比模型在长描述中容易把所有 token 等权处理,而 SSM 的选择性建模可能帮助模型筛选真正与图像相关的信息。自回归视觉语言模型也面临长文本生成和大模型计算成本问题,SSM 的长序列效率为遥感图文理解和生成提供了新方向。 但这一方向仍处于早期。如何用 SSM 对齐遥感图像和长文本,如何设计 SSM 驱动的跨模态编码器,如何在保持效率的同时生成准确、细粒度的遥感描述,都是值得继续探索的问题。

当前局限

论文总结了 SSM 在遥感应用中的若干局限。第一,遥感图像尺度变化极端,纯序列建模难以稳定处理不同尺度和几何形态。第二,超长序列下的稳定性和记忆行为还缺少系统评估。第三,SSM 对细粒度纹理和高频细节的捕捉能力不足,建筑边缘、道路边界、材料纹理等仍需要 CNN、频域处理或多尺度模块补充。 因此,SSM 不是遥感任务的万能替代品。更合理的定位是:它是高效长距离建模核心,可以与局部算子、多尺度结构和跨模态机制结合,构成更适合遥感数据特性的模型家族。

6 Conclusion|结论

这篇综述系统梳理了 SSM/Mamba 在遥感领域从 2024 年以来的快速发展。总体来看,SSM 之所以适合遥感,是因为遥感影像天然要求长距离依赖建模、大范围密集预测和多模态时空融合;而 SSM 以线性复杂度和选择性信息传播,为这些问题提供了新的结构选择。 从任务角度看,SSM 已经覆盖分类、分割、检测、变化检测、超分、去噪去雾和全色锐化等主要遥感方向;从架构角度看,扫描策略、混合架构、冗余移除、多模态融合和组件改造构成了当前设计空间;从未来趋势看,SSM 遥感基础模型、边缘部署、大规模影像处理和遥感视觉语言模型将成为重要增长点。 这篇综述给出的最大启发是:遥感 SSM 的关键不只是把 Mamba block 放进网络,而是围绕遥感数据的物理与结构特征重新设计信息流。扫描路径决定模型如何看图,融合机制决定模型如何整合模态,冗余移除决定模型如何过滤噪声,混合架构决定模型如何兼顾全局和局部。只有把这些问题一起考虑,SSM 才能真正成为遥感智能中的高效基础组件。

成为VIP会员查看完整内容
1

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
遥感中的视觉Mamba:技术、应用与前景的综合综述
专知会员服务
13+阅读 · 2025年5月2日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
《图Mamba》最新综述,探索图学习中的状态空间模型
专知会员服务
31+阅读 · 2024年12月26日
《视觉中的Mamba:技术与应用》全面综述
专知会员服务
37+阅读 · 2024年10月7日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
【干货】利用ENVI从航空影像中提取DEM
无人机
14+阅读 · 2018年1月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
无人机非战争未来——实为亟待破解之困局
专知会员服务
0+阅读 · 4分钟前
2025年全球二十起重大无人机作战事件
专知会员服务
4+阅读 · 6月27日
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
5+阅读 · 6月27日
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
7+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
11+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
17+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
6+阅读 · 6月26日
相关VIP内容
从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
遥感中的视觉Mamba:技术、应用与前景的综合综述
专知会员服务
13+阅读 · 2025年5月2日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
《图Mamba》最新综述,探索图学习中的状态空间模型
专知会员服务
31+阅读 · 2024年12月26日
《视觉中的Mamba:技术与应用》全面综述
专知会员服务
37+阅读 · 2024年10月7日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员