Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features and 2) designing an effective mechanism for fusing these features. Unlike existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three standard modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), and a similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features; the CIM is applied to capture polyp information disguised in low-level features, and the SAM extends the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named Polyp-PVT, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (\emph{e.g.}, appearance changes, small objects, rotation) than existing representative methods. The proposed model is available at https://github.com/DengPingFan/Polyp-PVT.


翻译:大多数息肉分割方法采用CNN作为骨干网络,导致编码器与解码器在信息交换时面临两个关键问题:1)需考虑不同层级特征贡献度的差异;2)需设计有效的多级特征融合机制。与现有基于CNN的方法不同,本文采用Transformer编码器以学习更具表现力与鲁棒性的特征表示。此外,针对图像采集影响及息肉本身难以捕捉的特性,我们引入三个标准模块:级联融合模块(CFM)、伪装识别模块(CIM)与相似性聚合模块(SAM)。其中,CFM用于从高层特征中收集息肉的语义与位置信息;CIM用于捕获隐藏在底层特征中的息肉信息;SAM则通过高层语义位置信息将息肉区域的像素特征扩展至整个息肉区域,从而实现跨层级特征的有效融合。所提出的Polyp-PVT模型可有效抑制特征中的噪声,显著提升特征表达能力。在五个广泛采用的公开数据集上的大量实验表明,与现有代表性方法相比,该模型在应对各类复杂场景(如外观变化、小目标、旋转等)时更具鲁棒性。模型代码已开源于https://github.com/DengPingFan/Polyp-PVT。

0
下载
关闭预览

相关内容

专知会员服务
43+阅读 · 2021年8月20日
专知会员服务
84+阅读 · 2020年9月27日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
18+阅读 · 2020年8月23日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月14日
Transformers in Medical Image Analysis: A Review
Arxiv
40+阅读 · 2022年2月24日
Arxiv
17+阅读 · 2021年3月29日
W-net: Bridged U-net for 2D Medical Image Segmentation
Arxiv
20+阅读 · 2018年7月12日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员