For video recognition task, a global representation summarizing the whole contents of the video snippets plays an important role for the final performance. However, existing video architectures usually generate it by using a simple, global average pooling (GAP) method, which has limited ability to capture complex dynamics of videos. For image recognition task, there exist evidences showing that covariance pooling has stronger representation ability than GAP. Unfortunately, such plain covariance pooling used in image recognition is an orderless representative, which cannot model spatio-temporal structure inherent in videos. Therefore, this paper proposes a Temporal-attentive Covariance Pooling(TCP), inserted at the end of deep architectures, to produce powerful video representations. Specifically, our TCP first develops a temporal attention module to adaptively calibrate spatio-temporal features for the succeeding covariance pooling, approximatively producing attentive covariance representations. Then, a temporal covariance pooling performs temporal pooling of the attentive covariance representations to characterize both intra-frame correlations and inter-frame cross-correlations of the calibrated features. As such, the proposed TCP can capture complex temporal dynamics. Finally, a fast matrix power normalization is introduced to exploit geometry of covariance representations. Note that our TCP is model-agnostic and can be flexibly integrated into any video architectures, resulting in TCPNet for effective video recognition. The extensive experiments on six benchmarks (e.g., Kinetics, Something-Something V1 and Charades) using various video architectures show our TCPNet is clearly superior to its counterparts, while having strong generalization ability. The source code is publicly available.


翻译:对于视频识别任务,一个概述视频片段全部内容的全球代表制对于最终性表演具有重要作用。然而,现有的视频结构通常通过使用一种简单的全球平均共享(GAP)方法生成它,这种方法捕捉视频复杂动态的能力有限。对于图像识别任务,有证据表明,共变集合比GAP具有更强的代表能力。 不幸的是,在图像识别中使用的这种普通共变集合是一种无定序的代表制,它无法模拟视频所固有的空间时空结构。因此,本文件建议采用一个时间性强化聚合(TCP),插入到深层结构的末尾,以产生强大的视频演示。具体地说,我们的TCP首先开发一个时间性关注模块,以适应性校正的阵列空间特征校准(Syal-creal Commission1), 类似时间性聚合集成一个时间性模型, 用于校正的TCP结构, 用于校准的轨定的轨迹结构, 最终的平时空结构, 将显示一个精确的轨迹结构, 用于快速的轨迹结构 。

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
6+阅读 · 2019年11月21日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Arxiv
9+阅读 · 2021年10月26日
Arxiv
7+阅读 · 2021年8月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
3+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
1+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
6+阅读 · 2019年11月21日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
相关论文
Arxiv
9+阅读 · 2021年10月26日
Arxiv
7+阅读 · 2021年8月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
Top
微信扫码咨询专知VIP会员