Efficient processing of high-res video streams is safety-critical for many robotics applications such as autonomous driving. To maintain real-time performance, many practical systems downsample the video stream. But this can hurt downstream tasks such as (small) object detection. Instead, we take inspiration from biological vision systems that allocate more foveal "pixels" to salient parts of the scene. We introduce FOVEA, an approach for intelligent downsampling that ensures salient image regions remain "magnified" in the downsampled output. Given a high-res image, FOVEA applies a differentiable resampling layer that outputs a small fixed-size image canvas, which is then processed with a differentiable vision module (e.g., object detection network), whose output is then differentiably backward mapped onto the original image size. The key idea is to resample such that background pixels can make room for salient pixels of interest. In order to ensure the overall pipeline remains efficient, FOVEA makes use of cheap and readily available cues for saliency, including dataset-specific spatial priors or temporal priors computed from object predictions in the recent past. On the autonomous driving datasets Argoverse-HD and BDD100K, our proposed method boosts the detection AP over standard Faster R-CNN, both with and without finetuning. Without any noticeable increase in compute, we improve accuracy on small objects by over 2x without degrading performance on large objects. Finally, FOVEA sets a new record for streaming AP (from 17.8 to 23.0 on a GTX 1080 Ti GPU), a metric designed to capture both accuracy and latency.


翻译:高频视频流的高效处理对于许多机器人应用( 如自动驾驶) 的安全至关重要 。 为了保持实时性能, 许多实用的系统都会对视频流进行下游模拟。 但这会伤害下游任务, 比如( 小) 对象检测。 相反, 我们从生物视觉系统中获取灵感, 将更多的微小“ 像素” 配置到场景的突出部分。 我们引入了智能的下游取样方法FOVEA, 这个方法可以确保突出的图像区域在下游输出中仍然“ 放大 ” 。 由于图像高频, FOVEA 应用了一个可区分的重塑层, 输出一个小型固定大小的图像画布, 之后用一个可区分的视觉模块( 如, 对象探测网络) 。 生物视觉系统的输出会有所不同地向后向原始图像大小。 我们引入了智能像素可以让突出的像素在下游输出输出中保持“ 放大 ” 。 为了确保整个管道的效率, FOVEA 能够使用一个廉价且容易获得的直线, 17 。 。 包括没有直观的精度的直径直径直径, 直径, 直径, 。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
【上海交大】<操作系统> 2021课程,附课件
专知会员服务
42+阅读 · 2021年4月3日
元强化学习综述及前沿进展
专知会员服务
63+阅读 · 2021年1月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【泡泡机器人原创专栏】IMU预积分总结与公式推导(一)
泡泡机器人SLAM
21+阅读 · 2018年7月22日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
5+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【泡泡机器人原创专栏】IMU预积分总结与公式推导(一)
泡泡机器人SLAM
21+阅读 · 2018年7月22日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员