Semantic ultra high resolution image (UHR) segmentation is essential in remote sensing applications such as aerial mapping and environmental monitoring. Transformer-based models struggle in this setting because memory grows quadratically with token count, constraining either the contextual scope or the spatial resolution. We introduce CASWiT (Context-Aware Stage-Wise Transformer), a dual-branch, Swin-based architecture that injects global cues into fine-grained UHR features. A context encoder processes a downsampled neighborhood to capture long-range dependencies, while a high resolution encoder extracts detailed features from UHR patches. A cross-scale fusion module, combining cross-attention and gated feature injection, enriches high-resolution tokens with context. Beyond architecture, we propose a SimMIM-style pretraining. We mask 75% of the high-resolution image tokens and the low-resolution center region that spatially corresponds to the UHR patch, then train the shared dual-encoder with small decoder to reconstruct the UHR initial image. Extensive experiments on the large-scale IGN FLAIR-HUB aerial dataset demonstrate the effectiveness of CASWiT. Our method achieves 65.83% mIoU, outperforming RGB baselines by 1.78 points. On URUR, CASWiT achieves 49.1% mIoU, surpassing the current SoTA by +0.9% under the official evaluation protocol. All codes are provided on: https://huggingface.co/collections/heig-vd-geo/caswit.


翻译:语义超高分辨率图像(UHR)分割在航空测绘和环境监测等遥感应用中至关重要。基于Transformer的模型在此场景下面临挑战,因为其内存消耗随token数量呈二次方增长,从而限制了上下文范围或空间分辨率。我们提出了CASWiT(上下文感知阶段式Transformer),一种基于Swin的双分支架构,将全局线索注入细粒度的UHR特征中。上下文编码器处理下采样的邻域以捕获长程依赖关系,而高分辨率编码器则从UHR图像块中提取细节特征。一个结合了交叉注意力和门控特征注入的跨尺度融合模块,利用上下文信息丰富了高分辨率token。除了架构创新,我们还提出了一种SimMIM风格的预训练方法。我们掩蔽75%的高分辨率图像token以及空间上对应于UHR图像块的低分辨率中心区域,然后使用小型解码器训练共享的双编码器来重建UHR原始图像。在大规模IGN FLAIR-HUB航空数据集上的大量实验证明了CASWiT的有效性。我们的方法实现了65.83%的mIoU,比RGB基线高出1.78个百分点。在URUR数据集上,CASWiT在官方评估协议下取得了49.1%的mIoU,比当前最优方法(SoTA)高出+0.9%。所有代码已发布于:https://huggingface.co/collections/heig-vd-geo/caswit。

0
下载
关闭预览

相关内容

【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
用Attention玩转CV,一文总览自注意力语义分割进展
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关VIP内容
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员