We investigate video classification via a two-stream convolutional neural network (CNN) design that directly ingests information extracted from compressed video bitstreams. Our approach begins with the observation that all modern video codecs divide the input frames into macroblocks (MBs). We demonstrate that selective access to MB motion vector (MV) information within compressed video bitstreams can also provide for selective, motion-adaptive, MB pixel decoding (a.k.a., MB texture decoding). This in turn allows for the derivation of spatio-temporal video activity regions at extremely high speed in comparison to conventional full-frame decoding followed by optical flow estimation. In order to evaluate the accuracy of a video classification framework based on such activity data, we independently train two CNN architectures on MB texture and MV correspondences and then fuse their scores to derive the final classification of each test video. Evaluation on two standard datasets shows that the proposed approach is competitive to the best two-stream video classification approaches found in the literature. At the same time: (i) a CPU-based realization of our MV extraction is over 977 times faster than GPU-based optical flow methods; (ii) selective decoding is up to 12 times faster than full-frame decoding; (iii) our proposed spatial and temporal CNNs perform inference at 5 to 49 times lower cloud computing cost than the fastest methods from the literature.


翻译:我们通过直接从压缩视频位流中提取的信息的双流神经神经网络(CNN)设计来调查视频分类。我们的方法首先是观察所有现代视频代码将输入框架分为宏观区块(MBs ) 。我们证明,在压缩视频位流中选择性地获取MB运动矢量(MV)信息也可以提供选择性的、运动适应性的、MB像素解码(a.k.a.MB Texture decoding ) 。这反过来又允许以极快的速度生成Spotio-时空视频活动区域,与常规全机解码区域相比较,然后进行光学流量估计。为了评估基于此类活动的数据的视频分类框架的准确性,我们独立地培训了两个CNN关于MB纹理和MV通信的系统结构,然后将其分数结合到每部测试视频的最终分类(a.k.a.k.a.a.b.b.b.b.b.b.b.b.b.b.d.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.d.d.d.b.b.d.d.b.d.b.b.b.b.b.b.d.d.b.b.b.d.b.d.b.b.b.b.b.d.d.b.b.b.b.d.d.d.d.d.d.d.b.b.b.b.d.d.d.d.b.b.b.b.d.d.d.d.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.b.d.d.d.b.b.b.b.b.b.b.b.b.b.b.b.b.d.d.d.d

4
下载
关闭预览

相关内容

【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
Top
微信扫码咨询专知VIP会员