MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation - 专知论文

会员服务 ·

0

精化 · 多目标 · 姿态估计 · 遮挡 · 对应关系 ·

MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation

翻译：MAPRPose：面向多目标6D姿态估计的掩膜感知提议与不可见区域精化

Yang Luo,Yan Gong,Yongsheng Gao,Xiaoying Sun,Jie Zhao

6D object pose estimation in cluttered scenes remains challenging due to severe occlusion and sensor noise. We propose MAPRPose, a two-stage framework that leverages mask-aware correspondences for pose proposal and amodal-driven Region-of-Interest (ROI) prediction for robust refinement. In the Mask-Aware Pose Proposal (MAPP) stage, we lift 2D correspondences into 3D space to establish reliable keypoint matches and generate geometrically consistent pose hypotheses based on correspondence-level scoring, from which the top-$K$ candidates are selected. In the refinement stage, we introduce a tensorized render-and-compare pipeline integrated with an Amodal Mask Prediction and ROI Re-Alignment (AMPR) module. By reconstructing complete object geometry and dynamically adjusting the ROI, AMPR mitigates localization errors and spatial misalignment under heavy occlusion. Furthermore, our GPU-accelerated RGB-XYZ reprojection enables simultaneous refinement of all $N \times B$ pose hypotheses in a single forward pass. Evaluated on the BOP benchmark, MAPRPose achieves a state-of-the-art Average Recall (AR) of 76.5%, outperforming FoundationPose by 3.1% AR while delivering a 43x speedup in multi-object inference.

翻译：在杂乱场景中，由于严重遮挡和传感器噪声，6D目标姿态估计仍具挑战性。我们提出MAPRPose，一种两阶段框架，利用掩膜感知对应关系进行姿态提议，并采用不可见区域驱动的感兴趣区域（ROI）预测实现鲁棒精化。在掩膜感知姿态提议（MAPP）阶段，我们将2D对应关系提升至3D空间以建立可靠的关键点匹配，并基于对应级别评分生成几何一致的姿态假设，从中选取前$K$个候选。在精化阶段，我们引入一种张量化渲染-比较管道，并集成不可见区域掩膜预测与ROI重新对齐（AMPR）模块。通过重建完整目标几何并动态调整ROI，AMPR可减轻严重遮挡下的定位误差和空间错位。此外，我们的GPU加速RGB-XYZ重投影能够单次前向传递中同时精化所有$N \times B$个姿态假设。在BOP基准测试中，MAPRPose实现了76.5%的平均召回率（AR）的最优性能，在超出FoundationPose达3.1% AR的同时，多目标推理速度提升43倍。

0

相关内容

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

《利用深度学习进行目标姿态估计》2023最新63页论文

《利用深度学习进行目标姿态估计》2023最新63页论文

专知会员服务

48+阅读 · 2023年8月29日

【估计定位、导航和授时（PNT）传感器和系统的目标位置误差】《多用途通用简化目标位置误差（TLE）计算器（MUSTC）》2022最新112页技术报告，美国陆军研究实验室

【估计定位、导航和授时（PNT）传感器和系统的目标位置误差】《多用途通用简化目标位置误差（TLE）计算器（MUSTC）》2022最新112页技术报告，美国陆军研究实验室

专知会员服务

47+阅读 · 2022年10月25日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

《超分辨率合成孔径雷达：多波束多通道带状图模式的设计和信号处理》，94页pdf，加拿大国防研究和开发部

《超分辨率合成孔径雷达：多波束多通道带状图模式的设计和信号处理》，94页pdf，加拿大国防研究和开发部

专知会员服务

28+阅读 · 2022年5月17日

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

专知会员服务

148+阅读 · 2022年4月5日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR2020-Oral-清华大学】MaskFlownet:使用可学习遮挡掩模的非对称特征匹配

【CVPR2020-Oral-清华大学】MaskFlownet:使用可学习遮挡掩模的非对称特征匹配

专知会员服务

29+阅读 · 2020年3月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances

Arxiv

0+阅读 · 6月12日

SemanticXR: Low Power and Real-time Queryable Semantic Mapping with an Object-Level Device-Cloud Architecture

Arxiv

0+阅读 · 6月11日

Multimodal Fusion and Interpretability in Human Activity Recognition: A Reproducible Framework for Sensor-Based Modeling

Arxiv

0+阅读 · 5月3日

Adaptor: Advancing Assistive Teleoperation with Few-Shot Learning and Cross-Operator Generalization

Arxiv

0+阅读 · 4月10日

Relational Epipolar Graphs for Robust Relative Camera Pose Estimation

Arxiv

0+阅读 · 4月6日

Cross-Modal Reinforcement Learning for Navigation with Degraded Depth Measurements

Arxiv

0+阅读 · 3月23日

Learning Progressive Adaptation for Multi-Modal Tracking

Arxiv

0+阅读 · 3月22日

Geometrically Plausible Object Pose Refinement using Differentiable Simulation

Arxiv

0+阅读 · 3月22日

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Arxiv

0+阅读 · 3月19日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

3+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

《利用深度学习进行目标姿态估计》2023最新63页论文

《利用深度学习进行目标姿态估计》2023最新63页论文

专知会员服务

48+阅读 · 2023年8月29日

【估计定位、导航和授时（PNT）传感器和系统的目标位置误差】《多用途通用简化目标位置误差（TLE）计算器（MUSTC）》2022最新112页技术报告，美国陆军研究实验室

【估计定位、导航和授时（PNT）传感器和系统的目标位置误差】《多用途通用简化目标位置误差（TLE）计算器（MUSTC）》2022最新112页技术报告，美国陆军研究实验室

专知会员服务

47+阅读 · 2022年10月25日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

《超分辨率合成孔径雷达：多波束多通道带状图模式的设计和信号处理》，94页pdf，加拿大国防研究和开发部

《超分辨率合成孔径雷达：多波束多通道带状图模式的设计和信号处理》，94页pdf，加拿大国防研究和开发部

专知会员服务

28+阅读 · 2022年5月17日

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

最新论文《战术网络的强化学习环境：基于多智能体的场景生成》德国弗劳恩霍夫研究所

专知会员服务

148+阅读 · 2022年4月5日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【CVPR2020-Oral-清华大学】MaskFlownet:使用可学习遮挡掩模的非对称特征匹配

【CVPR2020-Oral-清华大学】MaskFlownet:使用可学习遮挡掩模的非对称特征匹配

专知会员服务

29+阅读 · 2020年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances

Arxiv

0+阅读 · 6月12日

SemanticXR: Low Power and Real-time Queryable Semantic Mapping with an Object-Level Device-Cloud Architecture

Arxiv

0+阅读 · 6月11日

Multimodal Fusion and Interpretability in Human Activity Recognition: A Reproducible Framework for Sensor-Based Modeling

Arxiv

0+阅读 · 5月3日

Adaptor: Advancing Assistive Teleoperation with Few-Shot Learning and Cross-Operator Generalization

Arxiv

0+阅读 · 4月10日

Relational Epipolar Graphs for Robust Relative Camera Pose Estimation

Arxiv

0+阅读 · 4月6日

Cross-Modal Reinforcement Learning for Navigation with Degraded Depth Measurements

Arxiv

0+阅读 · 3月23日

Learning Progressive Adaptation for Multi-Modal Tracking

Arxiv

0+阅读 · 3月22日

Geometrically Plausible Object Pose Refinement using Differentiable Simulation

Arxiv

0+阅读 · 3月22日

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Arxiv

0+阅读 · 3月19日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

相关基金

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员