Semantic Prompt for Few-Shot Image Recognition - 专知论文

会员服务 ·

0

语义信息 · 样本 · 特征提取 · 特征提取器 · 视觉特征 ·

2023 年 3 月 24 日

Semantic Prompt for Few-Shot Image Recognition

翻译：语义提示用于少样本图像识别

Wentao Chen,Chenyang Si,Zhang Zhang,Liang Wang,Zilei Wang,Tieniu Tan

from arxiv, Accepted by CVPR 2023

Few-shot learning is a challenging problem since only a few examples are provided to recognize a new class. Several recent studies exploit additional semantic information, e.g. text embeddings of class names, to address the issue of rare samples through combining semantic prototypes with visual prototypes. However, these methods still suffer from the spurious visual features learned from the rare support samples, resulting in limited benefits. In this paper, we propose a novel Semantic Prompt (SP) approach for few-shot learning. Instead of the naive exploitation of semantic information for remedying classifiers, we explore leveraging semantic information as prompts to tune the visual feature extraction network adaptively. Specifically, we design two complementary mechanisms to insert semantic prompts into the feature extractor: one is to enable the interaction between semantic prompts and patch embeddings along the spatial dimension via self-attention, another is to supplement visual features with the transformed semantic prompts along the channel dimension. By combining these two mechanisms, the feature extractor presents a better ability to attend to the class-specific features and obtains more generalized image representations with merely a few support samples. Through extensive experiments on four datasets, the proposed approach achieves promising results, improving the 1-shot learning accuracy by 3.67% on average.

翻译：少样本学习是一个具有挑战性的问题，因为仅需少量示例即可识别新类别。近年来，一些研究利用额外的语义信息（例如类别名称的文本嵌入）通过结合语义原型与视觉原型来解决样本稀缺问题。然而，这些方法仍受限于从稀有支持样本中学习到的虚假视觉特征，导致收益有限。本文提出了一种新颖的语义提示方法用于少样本学习。与简单利用语义信息来修正分类器不同，我们探索将语义信息作为提示，自适应地调整视觉特征提取网络。具体而言，我们设计了两种互补机制将语义提示插入特征提取器：一种是通过自注意力机制使语义提示与空间维度的补丁嵌入进行交互；另一种是将变换后的语义提示沿通道维度补充到视觉特征中。通过结合这两种机制，特征提取器能更好地关注类别特定特征，并仅凭少量支持样本获得更泛化的图像表示。在四个数据集上的大量实验表明，所提方法取得了令人满意的结果，将1-shot学习准确率平均提高了3.67%。

0

相关内容

语义信息

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

上百份文字的检测与识别资源，包含数据集、code和paper

上百份文字的检测与识别资源，包含数据集、code和paper

数据挖掘入门与实战

17+阅读 · 2017年12月7日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

一类单位逼近卷积函数的边界渐近问题

国家自然科学基金

0+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

高分辨率极化SAR图像场景分类研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向工艺重用及融合制造语义的三维CAD模型检索方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

受miRNAs调控的Smad3基因通过调节自噬减轻脓毒症肺损伤的作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频选择性注意机理与语义特征提取

国家自然科学基金

1+阅读 · 2009年12月31日

基于实例动态泛化的共指消解

国家自然科学基金

0+阅读 · 2009年12月31日

SRRM: Semantic Region Relation Model for Indoor Scene Recognition

Arxiv

0+阅读 · 2023年5月15日

Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2023年5月12日

Multi-Source Contrastive Learning from Musical Audio

Arxiv

0+阅读 · 2023年5月10日

Sparse Spatial Transformers for Few-Shot Learning

Arxiv

0+阅读 · 2023年5月10日

Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup

Arxiv

0+阅读 · 2023年5月7日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Knowledge Graph Transfer Network for Few-Shot Recognition

Arxiv

15+阅读 · 2019年11月21日

VIP会员

文章信息

相关主题

特征提取器

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

上百份文字的检测与识别资源，包含数据集、code和paper

上百份文字的检测与识别资源，包含数据集、code和paper

数据挖掘入门与实战

17+阅读 · 2017年12月7日

相关论文

SRRM: Semantic Region Relation Model for Indoor Scene Recognition

Arxiv

0+阅读 · 2023年5月15日

Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2023年5月12日

Multi-Source Contrastive Learning from Musical Audio

Arxiv

0+阅读 · 2023年5月10日

Sparse Spatial Transformers for Few-Shot Learning

Arxiv

0+阅读 · 2023年5月10日

Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup

Arxiv

0+阅读 · 2023年5月7日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

Knowledge Graph Transfer Network for Few-Shot Recognition

Arxiv

15+阅读 · 2019年11月21日

相关基金

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

融合稀疏表示与深度学习的图像分类技术研究

国家自然科学基金

7+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

一类单位逼近卷积函数的边界渐近问题

国家自然科学基金

0+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

高分辨率极化SAR图像场景分类研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向工艺重用及融合制造语义的三维CAD模型检索方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

受miRNAs调控的Smad3基因通过调节自噬减轻脓毒症肺损伤的作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频选择性注意机理与语义特征提取

国家自然科学基金

1+阅读 · 2009年12月31日

基于实例动态泛化的共指消解

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员