Recently, video object segmentation (VOS) referred by multi-modal signals, e.g., language and audio, has evoked increasing attention in both industry and academia. It is challenging for exploring the semantic alignment within modalities and the visual correspondence across frames. However, existing methods adopt separate network architectures for different modalities, and neglect the inter-frame temporal interaction with references. In this paper, we propose MUTR, a Multi-modal Unified Temporal transformer for Referring video object segmentation. With a unified framework for the first time, MUTR adopts a DETR-style transformer and is capable of segmenting video objects designated by either text or audio reference. Specifically, we introduce two strategies to fully explore the temporal relations between videos and multi-modal signals. Firstly, for low-level temporal aggregation before the transformer, we enable the multi-modal references to capture multi-scale visual cues from consecutive video frames. This effectively endows the text or audio signals with temporal knowledge and boosts the semantic alignment between modalities. Secondly, for high-level temporal interaction after the transformer, we conduct inter-frame feature communication for different object embeddings, contributing to better object-wise correspondence for tracking along the video. On Ref-YouTube-VOS and AVSBench datasets with respective text and audio references, MUTR achieves +4.2% and +4.2% J&F improvements to state-of-the-art methods, demonstrating our significance for unified multi-modal VOS. Code is released at https://github.com/OpenGVLab/MUTR.


翻译:近年来,由多模态信号(如语言和音频)指代的视频目标分割(VOS)在工业界和学术界引起了越来越多的关注。探索模态间的语义对齐以及跨帧视觉对应关系极具挑战性。然而,现有方法对不同模态采用独立的网络架构,且忽视了参考信号与帧间时序交互。本文提出MUTR——一种用于指代视频目标分割的多模态统一时序Transformer。MUTR首次采用统一框架,基于DETR式Transformer架构,能够分割由文本或音频指代的视频目标。具体而言,我们引入两种策略充分挖掘视频与多模态信号间的时序关联:首先,在Transformer前的低层时序聚合阶段,使多模态参考信号能够从连续视频帧中捕获多尺度视觉线索,有效赋予文本或音频信号时序知识,增强模态间语义对齐;其次,在Transformer后的高层时序交互阶段,对不同目标嵌入进行帧间特征通信,有助于沿视频跟踪时实现更优的目标对应关系。在采用文本和音频指代的Ref-YouTube-VOS和AVSBench数据集上,MUTR分别比现有最优方法提升了4.2%和4.2%的J&F指标,证明了我们对统一多模态VOS的重要意义。代码已发布于https://github.com/OpenGVLab/MUTR。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月12日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
7+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
7+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
8+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
5+阅读 · 6月4日
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
20+阅读 · 6月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员