We focus on the problem of segmenting a certain object referred by a natural language sentence in video content, at the core of formulating a pinpoint vision-language relation. While existing attempts mainly construct such relation in an implicit way, i.e., grid-level multi-modal feature fusion, it has been proven problematic to distinguish semantically similar objects under this paradigm. In this work, we propose to interwind the visual and linguistic modalities in an explicit way via the contrastive learning objective, which directly aligns the referred object and the language description and separates the unreferred content apart across frames. Moreover, to remedy for the degradation problem, we present two complementary hard instance mining strategies, i.e., Language-relevant Channel Filter and Relative Hard Instance Construction. They encourage the network to exclude visual-distinguishable feature and to focus on easy-confused objects during the contrastive training. Extensive experiments on two benchmarks, i.e., A2D Sentences and J-HMDB Sentences, quantitatively demonstrate the state-of-the-arts performance of our method and qualitatively show the more accurate distinguishment between semantically similar objects over baselines.


翻译:我们注重在视频内容中将自然语言句中提及的一个物体分割开来的问题,这是形成精确的视觉语言关系的核心。虽然现有的尝试主要是以隐含的方式构建这种关系,即网格级多式特征融合,但事实证明在这个模式下区分语义相似的物体是成问题的。在这项工作中,我们提议通过对比式学习目标,将视觉和语言模式以明确的方式相互连接,直接将所述对象和语言描述对齐,并将未提及的内容隔开来。此外,为了补救退化问题,我们提出了两种互补的硬体采矿战略,即语言相关通道过滤器和相对难点建设。它们鼓励网络排除视觉上可识别的特征,并在对比性培训期间侧重于容易配置的物体。在两个基准上进行广泛的实验,即A2D判决和J-HMDB判决,从数量上展示我们方法的状态和定性上显示在基线上更准确地区分语义上相似的物体。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
专知会员服务
46+阅读 · 2020年10月31日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
123+阅读 · 2020年5月6日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
因果图,Causal Graphs,52页ppt
专知会员服务
253+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
已删除
将门创投
9+阅读 · 2019年11月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2020年10月2日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
专知会员服务
46+阅读 · 2020年10月31日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
123+阅读 · 2020年5月6日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
因果图,Causal Graphs,52页ppt
专知会员服务
253+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
9+阅读 · 2019年11月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员