Capsule Network (CapsNet) has demonstrated significant potential in visual recognition by capturing spatial relationships and part-whole hierarchies for learning equivariant feature representations. However, existing CapsNet and variants often rely on a single high-level feature map, overlooking the rich complementary information from multi-scale features. Furthermore, conventional feature fusion strategies (e.g., addition and concatenation) struggle to reconcile multi-scale feature discrepancies, leading to suboptimal classification performance. To address these limitations, we propose the Multi-Scale Patchify Capsule Network (MSPCaps), a novel architecture that integrates multi-scale feature learning and efficient capsule routing. Specifically, MSPCaps consists of three key components: a Multi-Scale ResNet Backbone (MSRB), a Patchify Capsule Layer (PatchifyCaps), and Cross-Agreement Routing (CAR) blocks. First, the MSRB extracts diverse multi-scale feature representations from input images, preserving both fine-grained details and global contextual information. Second, the PatchifyCaps partitions these multi-scale features into primary capsules using a uniform patch size, equipping the model with the ability to learn from diverse receptive fields. Finally, the CAR block adaptively routes the multi-scale capsules by identifying cross-scale prediction pairs with maximum agreement. Unlike the simple concatenation of multiple self-routing blocks, CAR ensures that only the most coherent capsules contribute to the final voting. Our proposed MSPCaps achieves remarkable scalability and superior robustness, consistently surpassing multiple baseline methods in terms of classification accuracy, with configurations ranging from a highly efficient Tiny model (344.3K parameters) to a powerful Large model (10.9M parameters), highlighting its potential in advancing feature representation learning.


翻译:胶囊网络(CapsNet)通过捕获空间关系和部分-整体层次结构来学习等变特征表示,在视觉识别领域已展现出巨大潜力。然而,现有的胶囊网络及其变体通常依赖于单一的高层特征图,忽略了来自多尺度特征的丰富互补信息。此外,传统的特征融合策略(例如加法和拼接)难以协调多尺度特征间的差异,导致分类性能欠佳。为应对这些局限性,我们提出了多尺度分块胶囊网络(MSPCaps),这是一种集成多尺度特征学习与高效胶囊路由的新型架构。具体而言,MSPCaps包含三个关键组件:多尺度ResNet骨干网络(MSRB)、分块胶囊层(PatchifyCaps)和跨协议路由(CAR)模块。首先,MSRB从输入图像中提取多样化的多尺度特征表示,同时保留细粒度细节和全局上下文信息。其次,PatchifyCaps使用统一的块大小将这些多尺度特征划分为初级胶囊,使模型具备从不同感受野学习的能力。最后,CAR模块通过识别具有最大一致性的跨尺度预测对,自适应地路由多尺度胶囊。与多个自路由模块的简单拼接不同,CAR确保只有最一致的胶囊参与最终投票。我们提出的MSPCaps实现了卓越的可扩展性和优异的鲁棒性,在分类准确率方面持续超越多种基线方法,其配置范围从高效的小型模型(344.3K参数)到强大的大型模型(10.9M参数),突显了其在推进特征表示学习方面的潜力。

0
下载
关闭预览

相关内容

【AAAI2021】可解释图胶囊网络物体检测
专知会员服务
29+阅读 · 2021年1月4日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
79+阅读 · 2020年5月24日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
69+阅读 · 2020年2月29日
CVPR2019 |《胶囊网络(Capsule Networks)综述》,附93页PPT下载
人工智能前沿讲习班
35+阅读 · 2019年7月4日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
胶囊网络,是什么?
人工智能头条
32+阅读 · 2019年1月2日
CapsNet入门系列之四:胶囊网络架构
论智
12+阅读 · 2018年2月23日
从AlexNet到胶囊网络,CNN这五年(视频详解)
大数据文摘
11+阅读 · 2017年12月22日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【AAAI2021】可解释图胶囊网络物体检测
专知会员服务
29+阅读 · 2021年1月4日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
79+阅读 · 2020年5月24日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
69+阅读 · 2020年2月29日
相关资讯
CVPR2019 |《胶囊网络(Capsule Networks)综述》,附93页PPT下载
人工智能前沿讲习班
35+阅读 · 2019年7月4日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
胶囊网络,是什么?
人工智能头条
32+阅读 · 2019年1月2日
CapsNet入门系列之四:胶囊网络架构
论智
12+阅读 · 2018年2月23日
从AlexNet到胶囊网络,CNN这五年(视频详解)
大数据文摘
11+阅读 · 2017年12月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员