Semantic segmentation is a fundamental task in computer vision with wide-ranging applications, including autonomous driving and robotics. While RGB-based methods have achieved strong performance with CNNs and Transformers, their effectiveness degrades under fast motion, low-light, or high dynamic range conditions due to limitations of frame cameras. Event cameras offer complementary advantages such as high temporal resolution and low latency, yet lack color and texture, making them insufficient on their own. To address this, recent research has explored multimodal fusion of RGB and event data; however, many existing approaches are computationally expensive and focus primarily on spatial fusion, neglecting the temporal dynamics inherent in event streams. In this work, we propose MambaSeg, a novel dual-branch semantic segmentation framework that employs parallel Mamba encoders to efficiently model RGB images and event streams. To reduce cross-modal ambiguity, we introduce the Dual-Dimensional Interaction Module (DDIM), comprising a Cross-Spatial Interaction Module (CSIM) and a Cross-Temporal Interaction Module (CTIM), which jointly perform fine-grained fusion along both spatial and temporal dimensions. This design improves cross-modal alignment, reduces ambiguity, and leverages the complementary properties of each modality. Extensive experiments on the DDD17 and DSEC datasets demonstrate that MambaSeg achieves state-of-the-art segmentation performance while significantly reducing computational cost, showcasing its promise for efficient, scalable, and robust multimodal perception.


翻译:语义分割是计算机视觉中的一项基础任务,在自动驾驶和机器人等领域具有广泛应用。尽管基于RGB的方法借助CNN和Transformer已取得优异性能,但在快速运动、低光照或高动态范围场景下,由于帧相机的固有局限,其效果会显著下降。事件相机具备高时间分辨率和低延迟等互补优势,但缺乏色彩与纹理信息,单独使用时性能不足。为此,近期研究开始探索RGB与事件数据的多模态融合方法;然而,现有方案大多计算开销高昂,且主要关注空间维度融合,忽略了事件流固有的时序动态特性。本研究提出MambaSeg——一种新颖的双分支语义分割框架,采用并行的Mamba编码器分别高效建模RGB图像与事件流。为降低跨模态歧义,我们设计了双维度交互模块(DDIM),包含跨空间交互模块(CSIM)与跨时间交互模块(CTIM),可沿空间和时序维度联合执行细粒度融合。该设计提升了跨模态对齐能力,减少了歧义,并充分挖掘了各模态的互补特性。在DDD17和DSEC数据集上的大量实验表明,MambaSeg在显著降低计算成本的同时,实现了最先进的分割性能,展现了其在高效、可扩展且鲁棒的多模态感知领域的应用潜力。

0
下载
关闭预览

相关内容

基于Transformer的视觉分割技术进展
专知会员服务
20+阅读 · 2025年2月10日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
CVPR 2022 | 用于语义分割任务的跨图像关系型知识蒸馏
专知会员服务
23+阅读 · 2022年5月15日
专知会员服务
87+阅读 · 2021年1月7日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员