Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution based approaches, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on the challenging ADE20K dataset and performs on-par on Pascal Context and Cityscapes.


翻译:在单个图像补丁级别上,图像的分解往往模糊不清, 需要背景信息才能达成标签共识。 在本文中, 我们引入了片段, 一个变压器模型, 用于语义分解。 与基于变动的方法相比, 我们的方法允许在第一个层和整个网络上建模全球背景。 我们建建在最近的视野变异器( ViT) 上, 并将其扩展至语义分解。 要做到这一点, 我们依靠与图像补丁相对应的输出嵌入, 并从这些嵌入的嵌入中获取类标签, 并配有点向线线线解密器或遮罩变异器解密器。 我们利用了为图像分类而预先训练的变压器模型, 并显示我们可以将其微调用于中度的语义分解析的数据集。 线解码器已经能够取得优异的结果, 但是通过生成类代口罩来进一步提高性。 我们进行广泛的对比研究, 以显示不同参数的影响, 特别是性能对大模型和小片断变变体大小更好。 分解器在图像分类分类上取得极优的结果。 。 它在城市的视野上显示了艺术的状态。 K- 。 和背景上显示 。

0
下载
关闭预览

相关内容

边缘机器学习,21页ppt
专知会员服务
84+阅读 · 2021年6月21日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
专知会员服务
326+阅读 · 2020年11月24日
专知会员服务
46+阅读 · 2020年10月31日
【ST2020硬核课】深度学习即统计学习,50页ppt
专知会员服务
67+阅读 · 2020年8月17日
一份简单《图神经网络》教程,28页ppt
专知会员服务
127+阅读 · 2020年8月2日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
边缘机器学习,21页ppt
专知会员服务
84+阅读 · 2021年6月21日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
专知会员服务
326+阅读 · 2020年11月24日
专知会员服务
46+阅读 · 2020年10月31日
【ST2020硬核课】深度学习即统计学习,50页ppt
专知会员服务
67+阅读 · 2020年8月17日
一份简单《图神经网络》教程,28页ppt
专知会员服务
127+阅读 · 2020年8月2日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员