Vision Transformers (ViTs) have demonstrated exceptional performance in various vision tasks. However, they tend to underperform on smaller datasets due to their inherent lack of inductive biases. Current approaches address this limitation implicitly-often by pairing ViTs with pretext tasks or by distilling knowledge from convolutional neural networks (CNNs) to strengthen the prior. In contrast, Self-Organizing Maps (SOMs), a widely adopted self-supervised framework, are inherently structured to preserve topology and spatial organization, making them a promising candidate to directly address the limitations of ViTs in limited or small training datasets. Despite this potential, equipping SOMs with modern deep learning architectures remains largely unexplored. In this study, we conduct a novel exploration on how Vision Transformers (ViTs) and Self-Organizing Maps (SOMs) can empower each other, aiming to bridge this critical research gap. Our findings demonstrate that these architectures can synergistically enhance each other, leading to significantly improved performance in both unsupervised and supervised tasks. Code is publicly available on GitHub.


翻译:视觉Transformer(ViTs)已在多种视觉任务中展现出卓越性能。然而,由于其固有的归纳偏置缺失,ViTs在较小数据集上往往表现欠佳。现有方法通常通过将ViTs与预训练任务结合,或从卷积神经网络(CNNs)中蒸馏知识以增强先验,从而隐式地解决这一局限。相比之下,自组织映射(SOMs)作为一种广泛采用的自监督框架,其固有结构能够保持拓扑与空间组织特性,使其成为直接解决ViTs在有限或小型训练数据集中局限性的潜在方案。尽管具备此潜力,为SOMs配备现代深度学习架构的研究仍基本处于空白。本研究对视觉Transformer(ViTs)与自组织映射(SOMs)如何相互增强进行了创新性探索,旨在弥合这一关键研究缺口。我们的实验结果表明,这两种架构能够产生协同增强效应,在无监督与有监督任务中均实现性能的显著提升。代码已在GitHub公开。

0
下载
关闭预览

相关内容

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
69+阅读 · 2022年9月13日
专知会员服务
65+阅读 · 2021年4月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
【CVPR2019教程】视频理解中的图表示学习
专知
43+阅读 · 2019年6月20日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
69+阅读 · 2022年9月13日
专知会员服务
65+阅读 · 2021年4月11日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员