Human detection in videos plays an important role in various real-life applications. Most traditional approaches depend on utilizing handcrafted features, which are problem-dependent and optimal for specific tasks. Moreover, they are highly susceptible to dynamical events such as illumination changes, camera jitter, and variations in object sizes. On the other hand, the proposed feature learning approaches are cheaper and easier because highly abstract and discriminative features can be produced automatically without the need of expert knowledge. In this paper, we utilize automatic feature learning methods, which combine optical flow and three different deep models (i.e., supervised convolutional neural network (S-CNN), pretrained CNN feature extractor, and hierarchical extreme learning machine) for human detection in videos captured using a nonstatic camera on an aerial platform with varying altitudes. The models are trained and tested on the publicly available and highly challenging UCF-ARG aerial dataset. The comparison between these models in terms of training, testing accuracy, and learning speed is analyzed. The performance evaluation considers five human actions (digging, waving, throwing, walking, and running). Experimental results demonstrated that the proposed methods are successful for the human detection task. The pretrained CNN produces an average accuracy of 98.09%. S-CNN produces an average accuracy of 95.6% with softmax and 91.7% with Support Vector Machines (SVM). H-ELM has an average accuracy of 95.9%. Using a normal Central Processing Unit (CPU), H-ELM's training time takes 445 seconds. Learning in S-CNN takes 770 seconds with a high-performance Graphical Processing Unit (GPU).


翻译:视频中的人体检测在各种现实应用中扮演着重要角色。大多数传统方法依赖于利用手工设计的特征,这些特征是问题相关的,且仅针对特定任务最优。此外,它们对光照变化、相机抖动和物体尺寸变化等动态事件高度敏感。另一方面,所提出的特征学习方法成本更低且更简便,因为无需专家知识即可自动生成高度抽象和判别性的特征。本文利用自动特征学习方法,结合光流和三种不同的深度模型(即监督卷积神经网络(S-CNN)、预训练CNN特征提取器和分层极限学习机),用于在高度变化的空中平台上使用非静态相机捕获的视频中进行人体检测。模型在公开可用且极具挑战性的UCF-ARG航拍数据集上进行训练和测试。分析了这些模型在训练、测试准确率和学习速度方面的比较。性能评估考虑了五种人体动作(挖掘、挥手、投掷、行走和奔跑)。实验结果表明,所提出的方法在人体检测任务中是成功的。预训练CNN的平均准确率达到98.09%。S-CNN在使用softmax时平均准确率为95.6%,使用支持向量机(SVM)时为91.7%。H-ELM的平均准确率为95.9%。使用普通中央处理器(CPU)时,H-ELM的训练时间为445秒。S-CNN在采用高性能图形处理器(GPU)时学习耗时770秒。

0
下载
关闭预览

相关内容

《基于深度学习的实时武器检测系统》
专知会员服务
32+阅读 · 2024年1月22日
专知会员服务
29+阅读 · 2021年9月13日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
【浙江大学】人脸反欺诈活体检测综述
专知会员服务
32+阅读 · 2020年4月15日
人脸静默活体检测最新综述
PaperWeekly
14+阅读 · 2020年8月9日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
【深度】行人检测算法
GAN生成式对抗网络
29+阅读 · 2018年6月3日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关资讯
人脸静默活体检测最新综述
PaperWeekly
14+阅读 · 2020年8月9日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
【深度】行人检测算法
GAN生成式对抗网络
29+阅读 · 2018年6月3日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员