视频识别作为视频理解的基础技术,是近几年非常热门的计算机视觉研究方向。现有的基于3D卷积网络的方法识别精度优异但计算量偏大,基于2D网络的方法虽然相对轻量但精度不及3D卷积网络。本文提出一种轻量的多视角融合模块(MVF Module)用于高效率且高性能的视频识别,该模块是一个即插即用的模块,能够直接插入到现有的2D卷积网络中构成一个简单有效的模型,称为MVFNet。此外,MVFNet可以视为一种通用的视频建模框架,通过设置模块内的参数,MVFNet可转化为经典的C2D, SlowOnly和TSM网络。实验结果显示,在五个视频benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet仅仅使用2D卷积网络的计算量就能够取得与当前最先进的3D卷积网络媲美甚至更高的性能。

https://www.zhuanzhi.ai/paper/b302552597bbfda247d10c339604673f

成为VIP会员查看完整内容
11

相关内容

【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
37+阅读 · 2021年1月24日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
15+阅读 · 2020年12月30日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
15+阅读 · 2020年12月29日
【AAAI2021】记忆门控循环网络
专知会员服务
50+阅读 · 2020年12月28日
【AAAI2021】 层次图胶囊网络
专知会员服务
84+阅读 · 2020年12月18日
专知会员服务
9+阅读 · 2020年12月10日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
10+阅读 · 2018年10月12日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
0+阅读 · 2021年3月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
37+阅读 · 2021年1月24日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
15+阅读 · 2020年12月30日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
15+阅读 · 2020年12月29日
【AAAI2021】记忆门控循环网络
专知会员服务
50+阅读 · 2020年12月28日
【AAAI2021】 层次图胶囊网络
专知会员服务
84+阅读 · 2020年12月18日
专知会员服务
9+阅读 · 2020年12月10日
微信扫码咨询专知VIP会员