High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.


翻译:高帧率动作识别视频在提升细粒度表达的同时降低了时空关系与运动信息密度,因而传统数据驱动训练仍需持续依赖大量视频样本。然而现实场景中样本往往不足,这推动了少样本动作识别研究的发展。我们观察到,近期多数少样本动作识别研究通过空间特征提取后的时序对齐构建视频样本的时空关系,割裂了样本内部的空间与时间特征。这些方法还通过相邻帧间的狭窄视角捕获运动信息,未考虑信息密度,导致运动信息捕获不足。为此,本文提出一种新颖的即插即用式少样本动作识别架构——时空帧元组增强器。基于该架构设计的模型称为SOAP-Net。该模型不仅考虑不同特征通道间的时间关联与特征的时空关系,还通过包含比相邻帧更丰富运动信息的多帧帧元组捕获全面运动信息。结合不同帧数的帧元组进一步提供了更广阔的视角。SOAP-Net在SthSthV2、Kinetics、UCF101和HMDB51等知名基准测试中取得了最先进的性能。大量实证评估证明了SOAP的竞争力、可插拔性、泛化能力与鲁棒性。代码已发布于https://github.com/wenbohuang1002/SOAP。

0
下载
关闭预览

相关内容

多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
面向图像分类的小样本学习算法综述
专知会员服务
65+阅读 · 2022年5月9日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
一文看懂如何将深度学习应用于视频动作识别
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
5+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
面向图像分类的小样本学习算法综述
专知会员服务
65+阅读 · 2022年5月9日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员