Existing approaches for autonomous control of pan-tilt-zoom (PTZ) cameras use multiple stages where object detection and localization are performed separately from the control of the PTZ mechanisms. These approaches require manual labels and suffer from performance bottlenecks due to error propagation across the multi-stage flow of information. The large size of object detection neural networks also makes prior solutions infeasible for real-time deployment in resource-constrained devices. We present an end-to-end deep reinforcement learning (RL) solution called Eagle to train a neural network policy that directly takes images as input to control the PTZ camera. Training reinforcement learning is cumbersome in the real world due to labeling effort, runtime environment stochasticity, and fragile experimental setups. We introduce a photo-realistic simulation framework for training and evaluation of PTZ camera control policies. Eagle achieves superior camera control performance by maintaining the object of interest close to the center of captured images at high resolution and has up to 17% more tracking duration than the state-of-the-art. Eagle policies are lightweight (90x fewer parameters than Yolo5s) and can run on embedded camera platforms such as Raspberry PI (33 FPS) and Jetson Nano (38 FPS), facilitating real-time PTZ tracking for resource-constrained environments. With domain randomization, Eagle policies trained in our simulator can be transferred directly to real-world scenarios.


翻译:摘要:现有自主控制云台变焦(PTZ)摄像机的方法采用多阶段流程,其中目标检测与定位独立于PTZ机制控制。这些方法需要人工标注,并因信息多阶段传递中的错误传播而面临性能瓶颈。目标检测神经网络的大规模参数使得先前方案无法在资源受限设备上实时部署。我们提出一种名为Eagle的端到端深度强化学习(RL)解决方案,旨在训练可直接以图像为输入控制PTZ摄像机的神经网络策略。由于标注成本、运行环境随机性及实验装置脆弱性,真实场景中的强化学习训练十分繁琐。我们引入一种照片级仿真框架,用于训练与评估PTZ摄像机控制策略。通过将感兴趣目标保持在高分辨率捕获图像的中心附近,Eagle实现了优越的摄像机控制性能,其跟踪持续时间较现有最优方法提升高达17%。Eagle策略轻量化(参数量较Yolo5s减少90倍),可在树莓派(33 FPS)和Jetson Nano(38 FPS)等嵌入式摄像机平台上运行,从而支持资源受限环境下的实时PTZ跟踪。结合领域随机化技术,在仿真器中训练的Eagle策略可直接迁移至真实场景。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
多目标跟踪:SORT和Deep SORT
极市平台
47+阅读 · 2019年3月18日
ECCV2018|视觉目标跟踪之DaSiamRPN
极市平台
11+阅读 · 2018年8月22日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
29+阅读 · 2023年2月10日
Arxiv
21+阅读 · 2022年11月8日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
1+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
多目标跟踪:SORT和Deep SORT
极市平台
47+阅读 · 2019年3月18日
ECCV2018|视觉目标跟踪之DaSiamRPN
极市平台
11+阅读 · 2018年8月22日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员