Mamba-based state space models offer linear-time long-range modeling for high-resolution dense prediction, but sequential state-space propagation can attenuate boundary-sensitive and detail-sensitive responses that are critical in multi-class semantic segmentation. We propose Reload-Mamba, a semantic segmentation framework that addresses this propagation-induced response dilution through three segmentation-specific designs: (i) a boundary-supervised local detail prior that is explicitly trained with ground-truth boundary masks to identify regions requiring response restoration; (ii) a class-uncertainty-aware Reload Gate that incorporates per-pixel class entropy from a pre-reload auxiliary head as an additional gating signal, a formulation that is informative only under multi-class dense prediction; and (iii) a hierarchical multi-level Reload mechanism that applies anti-dilution refinement at three decoder levels and fuses the restored representations top-down. Built upon a ConvNeXt-Tiny encoder with a multi-scale decoder and four-directional Mamba scanning with pixel-wise directional attention, Reload-Mamba achieves 47.9% single-scale (48.9% multi-scale) mIoU on ADE20K and 83.2% single-scale mIoU on Cityscapes. With ResNet-101 + COCO pre-training under the standard DeepLab-style protocol, Reload-Mamba reaches 87.8% mIoU on PASCAL VOC 2012 val. Controlled ablations show that each of the three segmentation-specific designs contributes beyond a direct port of the prior anti-dilution architecture proposed for binarization, cumulatively improving over the direct-port baseline by +2.2 mIoU on ADE20K.


翻译:[Mamba类状态空间模型为高分辨率密集预测提供了线性时间的长程建模能力,但顺序状态空间传播会衰减对多类语义分割至关重要的边界敏感与细节敏感响应。本文提出Reload-Mamba语义分割框架,通过三项针对分割任务的设计解决传播引发的响应稀释问题:(i) 边界监督的局部细节先验,利用真实边界掩码显式训练以识别需响应恢复的区域;(ii) 类别不确定性感知的Reload门控机制,将预加载辅助头输出的逐像素类别熵作为附加门控信号——该公式仅在多类密集预测下具有信息量;(iii) 分层多级Reload机制,在三级解码器层级应用抗稀释精炼并自上而下融合恢复后的表征。基于ConvNeXt-Tiny编码器、多尺度解码器及像素级方向注意力的四方向Mamba扫描,Reload-Mamba在ADE20K上达到47.9%单尺度(48.9%多尺度)mIoU,在Cityscapes上达83.2%单尺度mIoU。采用标准DeepLab风格协议下ResNet-101+COCO预训练,Reload-Mamba在PASCAL VOC 2012验证集上实现87.8% mIoU。控制消融实验表明:三项分割专用设计均超越直接移植为二值化提出的抗稀释架构的基线,在ADE20K上累计提升直接移植基线+2.2 mIoU。]

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
《图Mamba》最新综述,探索图学习中的状态空间模型
专知会员服务
31+阅读 · 2024年12月26日
《视觉中的Mamba:技术与应用》全面综述
专知会员服务
37+阅读 · 2024年10月7日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
54+阅读 · 2019年7月23日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员