In this paper, we focus on category-level 6D pose and size estimation from monocular RGB-D image. Previous methods suffer from inefficient category-level pose feature extraction which leads to low accuracy and inference speed. To tackle this problem, we propose a fast shape-based network (FS-Net) with efficient category-level feature extraction for 6D pose estimation. First, we design an orientation aware autoencoder with 3D graph convolution for latent feature extraction. The learned latent feature is insensitive to point shift and object size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode category-level rotation information from the latent feature, we propose a novel decoupled rotation mechanism that employs two decoders to complementarily access the rotation information. Meanwhile, we estimate translation and size by two residuals, which are the difference between the mean of object points and ground truth translation, and the difference between the mean size of the category and ground truth size, respectively. Finally, to increase the generalization ability of FS-Net, we propose an online box-cage based 3D deformation mechanism to augment the training data. Extensive experiments on two benchmark datasets show that the proposed method achieves state-of-the-art performance in both category- and instance-level 6D object pose estimation. Especially in category-level pose estimation, without extra synthetic data, our method outperforms existing methods by 6.3% on the NOCS-REAL dataset.


翻译:在本文中,我们侧重于6D类的外观和单质 RGB-D 图像的大小估计。 以往的方法在类别一级效率低下的外观提取中存在特征特征,导致精确度和推断速度低。 为了解决这一问题,我们提议建立一个基于快速形状的网络(FS-Net),为6D 的外观提取提供高效的类别级特征提取; 首先,我们设计一个有3D 图形图解变异用于潜在地貌提取的自定义编码器和尺寸。 由于3D 图解剖的变换和规模变异性,所学的潜潜伏特征对点变换和对象大小不敏感。 然后,为了有效地解译类别级的递解类别一级递解信息,我们提议了一个新型的拆分解轮换机制,使用两个解型网络来补充轮调信息。 与此同时,我们估计了两个剩余部分的翻译和大小,即对象点和地面真象翻译的平均值,以及类别和地面真象大小之间的差。 最后,为了提高FS- Net 的通用能力,我们提议一个基于3D类的正值级的外向目标级的外向级的外观实验, 级的内基于3D类的外观的外观实验, 级的外向级的外观数据测试, 级的外观的外观数据级的外观, 显示级的外观,以显示的外观的外观的外观数据, 显示的外观数据, 级的外观数据, 级的外观的数据级的外观, 级数据, 级的外观测算法系。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2021年1月16日
【ECCV2020】OCRNet化解语义分割上下文信息缺失难题
专知会员服务
17+阅读 · 2020年8月24日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2018 | Decoupled Networks
极市平台
4+阅读 · 2019年3月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
5+阅读 · 2018年4月13日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 40分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
CVPR2018 | Decoupled Networks
极市平台
4+阅读 · 2019年3月22日
CVPR2019 | Stereo R-CNN 3D 目标检测
极市平台
27+阅读 · 2019年3月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
相关论文
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
5+阅读 · 2018年4月13日
Top
微信扫码咨询专知VIP会员