基于耦合语义注意力的弱监督目标定位

TS-CAM: Token Semantic Coupled ttention

Map for Weakly Supervised Object Localization

弱监督目标定位是指仅根据图像层面的类别标签学习目标位置的任务。基于卷积神经网络 (CNN)的分类模型往往仅会激活目标的局部判别区域,而忽略完整的目标范围,称为局部激活问题。在这篇文章中,我们认为局部激活问题是由于CNN的内在特性导致。CNN由一系列卷积操作组成,导致模型仅具有局部的感受野,无法获取长距离的特征依赖性。基于此,我们提出我们提出基于Transformer的耦合语义类别激活图(TS-CAM)方法,借助自注意力机制提取长距离特征相似性。TS-CAM 首先将图像分割为一系列子块,通过位置编码学习不同子块间全局的注意力。之后,对每个子块进行重新排列得到得到类别语义图。最后,融合模型学习的全局注意力图与类别语义图得到类别激活图。在 ILSVRC/CUB-200-2011 数据集上的实验表明,TS-CAM 的性能超过其他基于CNN-CAM结构的方法约 7.1%/27.1%,达到SOTA。

https://www.zhuanzhi.ai/paper/4fd09541701bdbaa750df1804f96d58c

成为VIP会员查看完整内容
16

相关内容

专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
24+阅读 · 2021年9月16日
专知会员服务
16+阅读 · 2021年6月6日
专知会员服务
21+阅读 · 2021年5月1日
专知会员服务
21+阅读 · 2021年5月1日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
专知会员服务
21+阅读 · 2021年4月2日
专知会员服务
63+阅读 · 2021年3月12日
类脑信息处理研究取得进展
人工智能学家
5+阅读 · 2018年1月29日
基于深度学习的图像目标检测(下)
机器学习研究会
12+阅读 · 2018年1月1日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
8+阅读 · 2018年5月21日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
24+阅读 · 2021年9月16日
专知会员服务
16+阅读 · 2021年6月6日
专知会员服务
21+阅读 · 2021年5月1日
专知会员服务
21+阅读 · 2021年5月1日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
专知会员服务
21+阅读 · 2021年4月2日
专知会员服务
63+阅读 · 2021年3月12日
微信扫码咨询专知VIP会员