Rethink Long-tailed Recognition with Vision Transformers - 专知论文

会员服务 ·

0

视觉Transformer · 识别 · 无监督 · Transformer · 单分类 ·

2023 年 4 月 17 日

Rethink Long-tailed Recognition with Vision Transformers

翻译：使用视觉变换器重新思考长尾识别

Zhengzhuo Xu,Shuo Yang,Xingjun Wang,Chun Yuan

from arxiv, Accepted by ICASSP 2023

In the real world, data tends to follow long-tailed distributions w.r.t. class or attribution, motivating the challenging Long-Tailed Recognition (LTR) problem. In this paper, we revisit recent LTR methods with promising Vision Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed data. 2) ViT learns generalized features in an unsupervised manner, like mask generative training, either on long-tailed or balanced datasets. Hence, we propose to adopt unsupervised learning to utilize long-tailed data. Furthermore, we propose the Predictive Distribution Calibration (PDC) as a novel metric for LTR, where the model tends to simply classify inputs into common classes. Our PDC can measure the model calibration of predictive preferences quantitatively. On this basis, we find many LTR approaches alleviate it slightly, despite the accuracy improvement. Extensive experiments on benchmark datasets validate that PDC reflects the model's predictive preference precisely, which is consistent with the visualization.

翻译：在现实世界中，数据在类别或属性上往往遵循长尾分布，这催生了具有挑战性的长尾识别问题。本文中，我们重新审视了近年来基于视觉变换器的长尾识别方法。我们发现：1）视觉变换器难以在长尾数据上进行训练；2）视觉变换器通过无监督方式学习通用特征（如掩码生成训练），无论是在长尾还是均衡数据集上均如此。因此，我们提出采用无监督学习来利用长尾数据。此外，我们提出了预测分布校准作为长尾识别的新指标，该指标旨在解决模型倾向于将输入简单分类为常见类别的问题。我们的预测分布校准可以定量衡量模型预测偏好的校准程度。在此基础上，我们发现许多长尾识别方法尽管提升了准确率，但对此问题的缓解效果有限。在基准数据集上的大量实验验证，预测分布校准能精确反映模型的预测偏好，且与可视化结果一致。

0

相关内容

视觉Transformer

视觉Transformer

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

使用PyTorch进行小样本学习的图像分类

使用PyTorch进行小样本学习的图像分类

极市平台

1+阅读 · 2022年11月4日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

3+阅读 · 2022年7月26日

浅聊对比学习（Contrastive Learning）第一弹

浅聊对比学习（Contrastive Learning）第一弹

PaperWeekly

1+阅读 · 2022年6月10日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

凋亡诱导因子AIF调控Wnt信号通路的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

血浆D-dimer检测恶性肿瘤血行微转移的临床价值评估及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超灵敏129Xe磁共振分子影像学新方法---化学交换反转转移

国家自然科学基金

0+阅读 · 2014年12月31日

循环肿瘤细胞实时分子分型指导乳腺癌HER2靶向药物合理使用的探索性研究

国家自然科学基金

0+阅读 · 2014年12月31日

C/C复合材料在热力环境下的阻尼行为与损伤表征

国家自然科学基金

1+阅读 · 2013年12月31日

等离子喷涂层的磨损/疲劳竞争性寿命演变规律研究

国家自然科学基金

0+阅读 · 2012年12月31日

内嵌富勒烯的瞬态高压合成及其机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

视觉识别中类别信息早期加工的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

基于稀疏图表征理论的姿态/遮挡耦合变形车辆SAR图像识别

国家自然科学基金

0+阅读 · 2009年12月31日

Continual Vision-Language Representation Learning with Off-Diagonal Information

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

Arxiv

0+阅读 · 2023年5月30日

Long-Term Rhythmic Video Soundtracker

Arxiv

0+阅读 · 2023年5月30日

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling

Arxiv

0+阅读 · 2023年5月30日

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes

Arxiv

0+阅读 · 2023年5月29日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

Deep Long-Tailed Learning: A Survey

Arxiv

13+阅读 · 2021年10月9日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

使用PyTorch进行小样本学习的图像分类

使用PyTorch进行小样本学习的图像分类

极市平台

1+阅读 · 2022年11月4日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

3+阅读 · 2022年7月26日

浅聊对比学习（Contrastive Learning）第一弹

浅聊对比学习（Contrastive Learning）第一弹

PaperWeekly

1+阅读 · 2022年6月10日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

相关论文

Continual Vision-Language Representation Learning with Off-Diagonal Information

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

Arxiv

0+阅读 · 2023年5月30日

Long-Term Rhythmic Video Soundtracker

Arxiv

0+阅读 · 2023年5月30日

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling

Arxiv

0+阅读 · 2023年5月30日

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes

Arxiv

0+阅读 · 2023年5月29日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

Deep Long-Tailed Learning: A Survey

Arxiv

13+阅读 · 2021年10月9日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

相关基金

凋亡诱导因子AIF调控Wnt信号通路的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

血浆D-dimer检测恶性肿瘤血行微转移的临床价值评估及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超灵敏129Xe磁共振分子影像学新方法---化学交换反转转移

国家自然科学基金

0+阅读 · 2014年12月31日

循环肿瘤细胞实时分子分型指导乳腺癌HER2靶向药物合理使用的探索性研究

国家自然科学基金

0+阅读 · 2014年12月31日

C/C复合材料在热力环境下的阻尼行为与损伤表征

国家自然科学基金

1+阅读 · 2013年12月31日

等离子喷涂层的磨损/疲劳竞争性寿命演变规律研究

国家自然科学基金

0+阅读 · 2012年12月31日

内嵌富勒烯的瞬态高压合成及其机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

视觉识别中类别信息早期加工的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

基于稀疏图表征理论的姿态/遮挡耦合变形车辆SAR图像识别

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员