CVPR 2021 Oral | Transformer 跨界CV，美团提出端到端视频实例分割算法 - 专知

会员服务 ·

0

CVPR 2021 Oral | Transformer 跨界CV，美团提出端到端视频实例分割算法

2021 年 4 月 12 日 机器之心

自 2017 年 6月谷歌提出Transformer以来，它便逐渐成为了自然语言处理领域的主流模型。最近一段时间，Transformer更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于Transformer的新模型，如谷歌用于图像分类的ViT以及复旦、牛津、腾讯等机构的SETR等。由此，「Transformer是万能的吗？」也一度成为机器学习社区的热门话题。

实例分割是计算机视觉领域的一项基础任务，视频实例分割（Video Instance Segmentation, VIS）则需要对视频序列中的目标实例同时地进行分类、分割和跟踪。其中更具挑战性的是，研究人员需要对每个单独的帧执行实例分割，同时又要在连续帧之间建立起实例的数据关联，即跟踪。

在最近的一篇CVPR 2021 Oral论文中，来自美团等机构的研究者首个将Transformer应用到了端到端视频实例分割中，并提出了一个基于Transformer的视频实例分割新框架VisTR，该框架在所有使用单一模型的方法中实现了最佳效果和最快速度。

在机器之心最新一期的论文线上分享中，我们邀请到了 论文一作、美团算法工程师王钰晴 为大家介绍将Transformer应用于视频实例分割的技术细节。

欢迎大家报名参与，如有疑问可在QA环节与分享嘉宾交流。

主题：基于Transformers的端到端视频实例分割算法VisTR

嘉宾简介： 王钰晴，南开大学硕士毕业，2019年加入美团。主要负责无人车中地图元素的目标检测和实例分割工作，以及围绕一阶段实例分割和视频实例分割相关的前沿算法研究。

分享摘要： 本文是第一个将Transformers应用于视频分割领域的方法。视频实例分割指的是同时对视频中感兴趣的物体进行分类，分割和跟踪的任务。现有的方法通常设计复杂的流程来解决此问题。本文提出了一种基于Transformers的视频实例分割新框架VisTR，该框架将视频实例分割任务视为直接端到端的并行序列解码和预测的问题。给定一个含有多帧图像的视频作为输入，VisTR直接按顺序输出视频中每个实例的掩码序列。该方法的核心是一种新的实例序列匹配和分割的策略，该策略在整个序列级别上对实例进行监督和分割。VisTR将实例分割和跟踪统一到了相似度学习的框架下，从而大大简化了流程。在没有任何trick的情况下，VisTR在所有使用单一模型的方法中获得了最佳效果，并且在YouTube-VIS数据集上实现了最快的速度。

论文链接：https://arxiv.org/pdf/2011.14503.pdf
项目链接：https://github.com/Epiphqny/VisTR

时间：北京时间4月14日19:00-20:00

直播间：https://jmq.h5.xeknow.com/s/LlECz

直播交流群

如群已超出人数限制，请添加其他小助手： syncedai2、syncedai3、syncedai4 或 syncedai5，备注「分割算法」即可加入。

点击 阅读原文 ，收藏直播间。

登录查看更多

0

相关内容

视频实例分割

视频实例分割

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

东京大学 | TrTr：基于Transformer的目标跟踪

专知会员服务

36+阅读 · 2021年5月12日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

CVPR 2021 | 基于三元合作模式的视频阴影检测

CVPR 2021 | 基于三元合作模式的视频阴影检测

专知会员服务

11+阅读 · 2021年4月25日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

近期必读的5篇顶会CVPR 2021【视觉目标跟踪】相关论文和代码

专知会员服务

37+阅读 · 2021年3月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

专知会员服务

79+阅读 · 2020年3月3日

ECCV 2020 目标跟踪论文大盘点

ECCV 2020 目标跟踪论文大盘点

极市平台

7+阅读 · 2020年10月4日

【泡泡图灵智库】平面匹配：鲁棒RGB-D重建下的共面区块预测

【泡泡图灵智库】平面匹配：鲁棒RGB-D重建下的共面区块预测

泡泡机器人SLAM

8+阅读 · 2019年9月21日

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市平台

6+阅读 · 2019年9月1日

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

极市平台

67+阅读 · 2019年8月31日

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

极市平台

11+阅读 · 2019年5月5日

CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现

CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现

极市平台

47+阅读 · 2019年5月2日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

首发 | 旷视14篇CVPR 2019论文，都有哪些亮点？

首发 | 旷视14篇CVPR 2019论文，都有哪些亮点？

AI100

12+阅读 · 2019年3月5日

DaSiamRPN的升级版，视觉目标跟踪之SiamRPN++

DaSiamRPN的升级版，视觉目标跟踪之SiamRPN++

极市平台

76+阅读 · 2019年2月20日

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

商汤科技

23+阅读 · 2018年6月11日

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

Arxiv

1+阅读 · 2021年6月9日

Compacter: Efficient Low-Rank Hypercomplex Adapter Layers

Arxiv

2+阅读 · 2021年6月8日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Arxiv

10+阅读 · 2020年12月31日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Arxiv

7+阅读 · 2018年4月6日

Arxiv

7+阅读 · 2018年1月24日

VIP会员

相关主题

视频实例分割

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

2+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

3+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

东京大学 | TrTr：基于Transformer的目标跟踪

专知会员服务

36+阅读 · 2021年5月12日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

CVPR 2021 | 基于三元合作模式的视频阴影检测

CVPR 2021 | 基于三元合作模式的视频阴影检测

专知会员服务

11+阅读 · 2021年4月25日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

近期必读的5篇顶会CVPR 2021【视觉目标跟踪】相关论文和代码

专知会员服务

37+阅读 · 2021年3月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

专知会员服务

79+阅读 · 2020年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

ECCV 2020 目标跟踪论文大盘点

ECCV 2020 目标跟踪论文大盘点

极市平台

7+阅读 · 2020年10月4日

【泡泡图灵智库】平面匹配：鲁棒RGB-D重建下的共面区块预测

【泡泡图灵智库】平面匹配：鲁棒RGB-D重建下的共面区块预测

泡泡机器人SLAM

8+阅读 · 2019年9月21日

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市平台

6+阅读 · 2019年9月1日

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

极市平台

67+阅读 · 2019年8月31日

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

竞赛推荐 | DAVIS Challenge：视频目标分割挑战赛（CVPR2019）

极市平台

11+阅读 · 2019年5月5日

CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现

CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现

极市平台

47+阅读 · 2019年5月2日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

首发 | 旷视14篇CVPR 2019论文，都有哪些亮点？

首发 | 旷视14篇CVPR 2019论文，都有哪些亮点？

AI100

12+阅读 · 2019年3月5日

DaSiamRPN的升级版，视觉目标跟踪之SiamRPN++

DaSiamRPN的升级版，视觉目标跟踪之SiamRPN++

极市平台

76+阅读 · 2019年2月20日

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

商汤科技

23+阅读 · 2018年6月11日

相关论文

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

Arxiv

1+阅读 · 2021年6月9日

Compacter: Efficient Low-Rank Hypercomplex Adapter Layers

Arxiv

2+阅读 · 2021年6月8日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Arxiv

10+阅读 · 2020年12月31日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Arxiv

7+阅读 · 2018年4月6日

Arxiv

7+阅读 · 2018年1月24日

大家都在搜

无人机蜂群

对抗特征转移

文本挖掘从小白到精通

微信扫码咨询专知VIP会员