Video moment retrieval targets at retrieving a moment in a video for a given language query. The challenges of this task include 1) the requirement of localizing the relevant moment in an untrimmed video, and 2) bridging the semantic gap between textual query and video contents. To tackle those problems, early approaches adopt the sliding window or uniform sampling to collect video clips first and then match each clip with the query. Obviously, these strategies are time-consuming and often lead to unsatisfied accuracy in localization due to the unpredictable length of the golden moment. To avoid the limitations, researchers recently attempt to directly predict the relevant moment boundaries without the requirement to generate video clips first. One mainstream approach is to generate a multimodal feature vector for the target query and video frames (e.g., concatenation) and then use a regression approach upon the multimodal feature vector for boundary detection. Although some progress has been achieved by this approach, we argue that those methods have not well captured the cross-modal interactions between the query and video frames. In this paper, we propose an Attentive Cross-modal Relevance Matching (ACRM) model which predicts the temporal boundaries based on an interaction modeling. In addition, an attention module is introduced to assign higher weights to query words with richer semantic cues, which are considered to be more important for finding relevant video contents. Another contribution is that we propose an additional predictor to utilize the internal frames in the model training to improve the localization accuracy. Extensive experiments on two datasets TACoS and Charades-STA demonstrate the superiority of our method over several state-of-the-art methods. Ablation studies have been also conducted to examine the effectiveness of different modules in our ACRM model.


翻译:为了解决这些问题,早期方法采用滑动窗口或统一取样方法来首先收集视频剪辑,然后将每个剪辑与查询匹配。显然,这些战略耗费时间,往往导致本地化不满意的准确性,因为黄金时刻的长度不可预测。为了避免这些局限性,研究人员最近试图直接预测相关时刻的界限,而不需要先制作视频剪辑。一种主流方法是为目标查询和视频框架(例如,连接)生成一个多式特性矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量,然后对多式特性矢量矢量矢量取样。虽然这种方法已经取得一些进展,但我们认为这些方法没有很好地捕捉到本地化和视频框架之间的跨模式互动。在本文中,我们提议在不要求生成视频精度精度时直接预测相关时刻的界限。一种主流方法是为目标查询和视频框架(例如,连接)生成一个多式元量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矩阵,在测试中进行一个方向进行一个重要度度度度度度度度度度度度度度度度度度度度度度模型测测量度模型研究,在预测测量度的模型中进行一个方向上,在选择测路路路路路路路路路路路路路标量测测路路路路标度模型中进行一个测测算,在测路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路,在进行中进行中进行中进行中进行中进行中进行路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
51+阅读 · 2021年1月19日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
16+阅读 · 2021年1月19日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
「Github」多模态机器学习文章阅读列表
专知
124+阅读 · 2019年8月15日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
最新内容
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 23分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
「Github」多模态机器学习文章阅读列表
专知
124+阅读 · 2019年8月15日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员