Prior-free Category-level Pose Estimation with Implicit Space Transformation - 专知论文

会员服务 ·

0

估计/估计量 · 变换 · 3D · SimPLe · Performance ·

2023 年 3 月 23 日

Prior-free Category-level Pose Estimation with Implicit Space Transformation

翻译：无先验知识的类别级姿态估计与隐式空间变换

Jianhui Liu,Yukang Chen,Xiaoqing Ye,Xiaojuan Qi

Category-level 6D pose estimation aims to predict the poses and sizes of unseen objects from a specific category. Thanks to prior deformation, which explicitly adapts a category-specific 3D prior (i.e., a 3D template) to a given object instance, prior-based methods attained great success and have become a major research stream. However, obtaining category-specific priors requires collecting a large amount of 3D models, which is labor-consuming and often not accessible in practice. This motivates us to investigate whether priors are necessary to make prior-based methods effective. Our empirical study shows that the 3D prior itself is not the credit to the high performance. The keypoint actually is the explicit deformation process, which aligns camera and world coordinates supervised by world-space 3D models (also called canonical space). Inspired by these observation, we introduce a simple prior-free implicit space transformation network, namely IST-Net, to transform camera-space features to world-space counterparts and build correspondence between them in an implicit manner without relying on 3D priors. Besides, we design camera- and world-space enhancers to enrich the features with pose-sensitive information and geometrical constraints, respectively. Albeit simple, IST-Net becomes the first prior-free method that achieves state-of-the-art performance, with top inference speed on the REAL275 dataset. Our code and models will be publicly available.

翻译：类别级6D姿态估计旨在预测特定类别中未见物体的姿态与尺寸。得益于先验形变——即显式地将类别特定的3D先验（如3D模板）适配到给定物体实例，基于先验的方法取得了巨大成功，并已成为主流研究方向。然而，获取类别特定的先验需要收集大量3D模型，这一过程费时费力且在实际中往往难以实现。这促使我们探究先验是否是使基于先验的方法有效的必要条件。实验表明，3D先验本身并非高精度性能的关键，真正的关键在于显式形变过程——该过程通过世界空间3D模型（亦称规范空间）的监督，实现相机坐标系与世界坐标系的对齐。基于上述观察，我们提出一种简洁的无先验隐式空间变换网络IST-Net，该网络无需依赖3D先验，即可将相机空间特征隐式转换为世界空间特征，并建立两者间的对应关系。此外，我们设计了相机空间增强器与世界空间增强器，分别赋予特征姿态敏感信息与几何约束。尽管结构简单，IST-Net成为首个在REAL275数据集上达到最先进性能且推理速度最快的无先验方法。我们的代码与模型将公开发布。

0

相关内容

估计/估计量

估计/估计量

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

粗粒化分子构象生成

粗粒化分子构象生成

专知会员服务

10+阅读 · 2022年9月18日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

CVPR 2021 Oral | 室内动态场景中的相机重定位

CVPR 2021 Oral | 室内动态场景中的相机重定位

专知会员服务

16+阅读 · 2021年4月12日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

最新开源 RGBD+IMU数据集：FMDataset

最新开源 RGBD+IMU数据集：FMDataset

计算机视觉life

42+阅读 · 2019年9月21日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

猕猴额叶皮层在空间运动感知中的贡献

国家自然科学基金

0+阅读 · 2014年12月31日

基于同步多双目立体视觉的高精度人体建模

国家自然科学基金

0+阅读 · 2014年12月31日

多视图信息融合的乳腺肿块计算机辅助检测关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

基于Landau-Zener-Stuckelberg效应的超快电荷量子比特研究

国家自然科学基金

0+阅读 · 2013年12月31日

几何结构形变空间的几何拓扑

国家自然科学基金

0+阅读 · 2012年12月31日

滑动轴承两极润滑状态下润滑行为的自适应调控新方法

国家自然科学基金

0+阅读 · 2012年12月31日

多尺度空间关系建模与异常检测方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多小波构造的纹理特征表示与提取

国家自然科学基金

0+阅读 · 2009年12月31日

基于真彩色图像的活立木三维重建方法

国家自然科学基金

0+阅读 · 2009年12月31日

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

Arxiv

0+阅读 · 2023年5月15日

Optimal and Robust Category-level Perception: Object Pose and Shape Estimation from 2D and 3D Semantic Keypoints

Arxiv

0+阅读 · 2023年5月15日

CHSEL: Producing Diverse Plausible Pose Estimates from Contact and Free Space Data

Arxiv

0+阅读 · 2023年5月14日

MetaMorphosis: Task-oriented Privacy Cognizant Feature Generation for Multi-task Learning

Arxiv

0+阅读 · 2023年5月13日

Spider GAN: Leveraging Friendly Neighbors to Accelerate GAN Training

Arxiv

0+阅读 · 2023年5月12日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

Arxiv

15+阅读 · 2018年5月24日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

mvn2vec: Preservation and Collaboration in Multi-View Network Embedding

Arxiv

10+阅读 · 2018年1月19日

VIP会员

文章信息

相关主题

估计/估计量

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

3+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

8+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

5+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

粗粒化分子构象生成

粗粒化分子构象生成

专知会员服务

10+阅读 · 2022年9月18日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

CVPR 2021 Oral | 室内动态场景中的相机重定位

CVPR 2021 Oral | 室内动态场景中的相机重定位

专知会员服务

16+阅读 · 2021年4月12日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

最新开源 RGBD+IMU数据集：FMDataset

最新开源 RGBD+IMU数据集：FMDataset

计算机视觉life

42+阅读 · 2019年9月21日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡汇总】CVPR2019 SLAM Paperlist

【泡泡汇总】CVPR2019 SLAM Paperlist

泡泡机器人SLAM

14+阅读 · 2019年6月12日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

相关论文

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

Arxiv

0+阅读 · 2023年5月15日

Optimal and Robust Category-level Perception: Object Pose and Shape Estimation from 2D and 3D Semantic Keypoints

Arxiv

0+阅读 · 2023年5月15日

CHSEL: Producing Diverse Plausible Pose Estimates from Contact and Free Space Data

Arxiv

0+阅读 · 2023年5月14日

MetaMorphosis: Task-oriented Privacy Cognizant Feature Generation for Multi-task Learning

Arxiv

0+阅读 · 2023年5月13日

Spider GAN: Leveraging Friendly Neighbors to Accelerate GAN Training

Arxiv

0+阅读 · 2023年5月12日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

Arxiv

15+阅读 · 2018年5月24日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

mvn2vec: Preservation and Collaboration in Multi-View Network Embedding

Arxiv

10+阅读 · 2018年1月19日

相关基金

猕猴额叶皮层在空间运动感知中的贡献

国家自然科学基金

0+阅读 · 2014年12月31日

基于同步多双目立体视觉的高精度人体建模

国家自然科学基金

0+阅读 · 2014年12月31日

多视图信息融合的乳腺肿块计算机辅助检测关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

基于Landau-Zener-Stuckelberg效应的超快电荷量子比特研究

国家自然科学基金

0+阅读 · 2013年12月31日

几何结构形变空间的几何拓扑

国家自然科学基金

0+阅读 · 2012年12月31日

滑动轴承两极润滑状态下润滑行为的自适应调控新方法

国家自然科学基金

0+阅读 · 2012年12月31日

多尺度空间关系建模与异常检测方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多小波构造的纹理特征表示与提取

国家自然科学基金

0+阅读 · 2009年12月31日

基于真彩色图像的活立木三维重建方法

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员