In this paper, we improve the challenging monocular 3D object detection problem with a general semi-supervised framework. Specifically, having observed that the bottleneck of this task lies in lacking reliable and informative samples to train the detector, we introduce a novel, simple, yet effective `Augment and Criticize' framework that explores abundant informative samples from unlabeled data for learning more robust detection models. In the `Augment' stage, we present the Augmentation-based Prediction aGgregation (APG), which aggregates detections from various automatically learned augmented views to improve the robustness of pseudo label generation. Since not all pseudo labels from APG are beneficially informative, the subsequent `Criticize' phase is presented. In particular, we introduce the Critical Retraining Strategy (CRS) that, unlike simply filtering pseudo labels using a fixed threshold (e.g., classification score) as in 2D semi-supervised tasks, leverages a learnable network to evaluate the contribution of unlabeled images at different training timestamps. This way, the noisy samples prohibitive to model evolution could be effectively suppressed. To validate our framework, we apply it to MonoDLE and MonoFlex. The two new detectors, dubbed 3DSeMo_DLE and 3DSeMo_FLEX, achieve state-of-the-art results with remarkable improvements for over 3.5% AP_3D/BEV (Easy) on KITTI, showing its effectiveness and generality. Code and models will be released.


翻译:本文提出一种通用半监督框架,旨在提升具有挑战性的单目三维目标检测性能。通过观察该任务瓶颈在于缺乏可靠且信息丰富的样本来训练检测器,我们引入一种新颖、简洁且高效的"增强与批判"框架,从无标注数据中挖掘大量信息样本,以学习更鲁棒的检测模型。在"增强"阶段,我们提出基于增强的预测聚合方法(APG),通过聚合多种自动学习增强视角的检测结果,提升伪标签生成的鲁棒性。由于APG产生的伪标签并非都具有有益信息,后续"批判"阶段应运而生。具体而言,我们引入关键重训练策略(CRS),与二维半监督任务中采用固定阈值(如分类分数)简单过滤伪标签的做法不同,该方法利用可学习网络评估不同训练时刻无标注图像的贡献。通过这种方式,阻碍模型演进的噪声样本可被有效抑制。为验证该框架,我们将其应用于MonoDLE与MonoFlex。两种新检测器命名为3DSeMo_DLE和3DSeMo_FLEX,在KITTI数据集上以超过3.5%的AP_3D/BEV(简单)指标提升,取得了最先进结果,验证了方法的有效性与泛化性。代码与模型将开源。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
22+阅读 · 2021年7月28日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR2021】用于目标检测的通用实例蒸馏
专知会员服务
24+阅读 · 2021年3月22日
专知会员服务
45+阅读 · 2021年1月31日
【泡泡一分钟】用于视角可变重定位的语义地图构建
泡泡机器人SLAM
19+阅读 · 2019年10月21日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
专知会员服务
22+阅读 · 2021年7月28日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR2021】用于目标检测的通用实例蒸馏
专知会员服务
24+阅读 · 2021年3月22日
专知会员服务
45+阅读 · 2021年1月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员