Traditional temporal action detection (TAD) usually handles untrimmed videos with small number of action instances from a single label (e.g., ActivityNet, THUMOS). However, this setting might be unrealistic as different classes of actions often co-occur in practice. In this paper, we focus on the task of multi-label temporal action detection that aims to localize all action instances from a multi-label untrimmed video. Multi-label TAD is more challenging as it requires for fine-grained class discrimination within a single video and precise localization of the co-occurring instances. To mitigate this issue, we extend the sparse query-based detection paradigm from the traditional TAD and propose the multi-label TAD framework of PointTAD. Specifically, our PointTAD introduces a small set of learnable query points to represent the important frames of each action instance. This point-based representation provides a flexible mechanism to localize the discriminative frames at boundaries and as well the important frames inside the action. Moreover, we perform the action decoding process with the Multi-level Interactive Module to capture both point-level and instance-level action semantics. Finally, our PointTAD employs an end-to-end trainable framework simply based on RGB input for easy deployment. We evaluate our proposed method on two popular benchmarks and introduce the new metric of detection-mAP for multi-label TAD. Our model outperforms all previous methods by a large margin under the detection-mAP metric, and also achieves promising results under the segmentation-mAP metric. Code is available at https://github.com/MCG-NJU/PointTAD.


翻译:传统时序动作检测(TAD)通常处理包含少量单标签动作实例的未裁剪视频(如ActivityNet、THUMOS数据集)。然而,这种设定可能不够现实,因为不同类别的动作在实际场景中往往会同时出现。本文聚焦于多标签时序动作检测任务,旨在定位多标签未裁剪视频中的所有动作实例。多标签TAD更具挑战性,它要求在同一视频中实现细粒度类别区分,并精准定位共现实例。为解决这一问题,我们将稀疏查询检测范式从传统TAD进行扩展,提出了多标签TAD框架PointTAD。具体而言,PointTAD引入少量可学习查询点来表示每个动作实例的关键帧。这种基于点的表示机制能够灵活定位动作边界处的判别帧以及动作内部的重要帧。此外,我们通过多层级交互模块执行动作解码过程,以捕获点级和实例级的动作语义。最后,PointTAD采用仅基于RGB输入的端到端可训练框架,便于部署。我们在两个主流基准上评估所提方法,并引入了检测-mAP这一新指标用于多标签TAD评估。在检测-mAP指标下,我们的方法以显著优势超越所有现有方法,同时在分割-mAP指标上也取得了可观的结果。代码已开源:https://github.com/MCG-NJU/PointTAD。

0
下载
关闭预览

相关内容

简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
基于弱监督的视频时序动作检测的介绍
极市平台
30+阅读 · 2019年2月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【泡泡一分钟】基于图神经网络的情景识别
泡泡机器人SLAM
11+阅读 · 2018年11月21日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月9日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
19+阅读 · 2018年5月17日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
2+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
4+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
4+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
4+阅读 · 6月4日
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
17+阅读 · 6月2日
相关VIP内容
相关资讯
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
基于弱监督的视频时序动作检测的介绍
极市平台
30+阅读 · 2019年2月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【泡泡一分钟】基于图神经网络的情景识别
泡泡机器人SLAM
11+阅读 · 2018年11月21日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员