Simple Self Organizing Map with Vision Transformers - 专知论文

会员服务 ·

0

映射 · 视觉Transformer · 监督 · Transformer · 数据集 ·

Simple Self Organizing Map with Vision Transformers

翻译：基于视觉Transformer的简易自组织映射

Alan Luo,Kaiwen Yuan

from arxiv, 5 pages, 4 figures. Submitted to IEEE. All experiments and code work were performed by the first author, with the second author serving in a PI/mentor role, guiding the progression of the work

Vision Transformers (ViTs) have demonstrated exceptional performance in various vision tasks. However, they tend to underperform on smaller datasets due to their inherent lack of inductive biases. Current approaches address this limitation implicitly-often by pairing ViTs with pretext tasks or by distilling knowledge from convolutional neural networks (CNNs) to strengthen the prior. In contrast, Self-Organizing Maps (SOMs), a widely adopted self-supervised framework, are inherently structured to preserve topology and spatial organization, making them a promising candidate to directly address the limitations of ViTs in limited or small training datasets. Despite this potential, equipping SOMs with modern deep learning architectures remains largely unexplored. In this study, we conduct a novel exploration on how Vision Transformers (ViTs) and Self-Organizing Maps (SOMs) can empower each other, aiming to bridge this critical research gap. Our findings demonstrate that these architectures can synergistically enhance each other, leading to significantly improved performance in both unsupervised and supervised tasks. Code is publicly available on GitHub.

翻译：视觉Transformer（ViTs）已在多种视觉任务中展现出卓越性能。然而，由于其固有的归纳偏置缺失，ViTs在较小数据集上往往表现欠佳。现有方法通常通过将ViTs与预训练任务结合，或从卷积神经网络（CNNs）中蒸馏知识以增强先验，从而隐式地解决这一局限。相比之下，自组织映射（SOMs）作为一种广泛采用的自监督框架，其固有结构能够保持拓扑与空间组织特性，使其成为直接解决ViTs在有限或小型训练数据集中局限性的潜在方案。尽管具备此潜力，为SOMs配备现代深度学习架构的研究仍基本处于空白。本研究对视觉Transformer（ViTs）与自组织映射（SOMs）如何相互增强进行了创新性探索，旨在弥合这一关键研究缺口。我们的实验结果表明，这两种架构能够产生协同增强效应，在无监督与有监督任务中均实现性能的显著提升。代码已在GitHub公开。

0

相关内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【万字长文】视觉Transformer语义分割模型综述

【万字长文】视觉Transformer语义分割模型综述

专知会员服务

56+阅读 · 2024年1月2日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

Evaluating Graphical Perception Capabilities of Vision Transformers

Arxiv

0+阅读 · 2月20日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

Arxiv

0+阅读 · 2月17日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Interpretable Vision Transformers in Image Classification via SVDA

Arxiv

0+阅读 · 2月11日

CAViT -- Channel-Aware Vision Transformer for Dynamic Feature Fusion

Arxiv

0+阅读 · 2月5日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【万字长文】视觉Transformer语义分割模型综述

【万字长文】视觉Transformer语义分割模型综述

专知会员服务

56+阅读 · 2024年1月2日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

【CVPR2019教程】视频理解中的图表示学习

【CVPR2019教程】视频理解中的图表示学习

专知

43+阅读 · 2019年6月20日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

相关论文

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

Evaluating Graphical Perception Capabilities of Vision Transformers

Arxiv

0+阅读 · 2月20日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

Arxiv

0+阅读 · 2月17日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Interpretable Vision Transformers in Image Classification via SVDA

Arxiv

0+阅读 · 2月11日

CAViT -- Channel-Aware Vision Transformer for Dynamic Feature Fusion

Arxiv

0+阅读 · 2月5日

Visual Implicit Geometry Transformer for Autonomous Driving

Arxiv

0+阅读 · 2月5日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员