PoseGAM: Robust Unseen Object Pose Estimation via Geometry-Aware Multi-View Reasoning - 专知论文

会员服务 ·

0

多视角 · 几何感知 · 鲁棒 · 物体姿态估计 · 姿态估计 ·

PoseGAM: Robust Unseen Object Pose Estimation via Geometry-Aware Multi-View Reasoning

翻译：PoseGAM：基于几何感知的多视角推理实现鲁棒的未见物体姿态估计

Jianqi Chen,Biao Zhang,Xiangjun Tang,Peter Wonka

from arxiv, Accepted by CVPR 2026 (Oral). Project page: https://windvchen.github.io/PoseGAM/

6D object pose estimation, which predicts the transformation of an object relative to the camera, remains challenging for unseen objects. Existing approaches typically rely on explicitly constructing feature correspondences between the query image and either the object model or template images. In this work, we propose PoseGAM, a geometry-aware multi-view framework that directly predicts object pose from a query image and multiple template images, eliminating the need for explicit matching. Built upon recent multi-view-based foundation model architectures, the method integrates object geometry information through two complementary mechanisms: explicit point-based geometry and learned features from geometry representation networks. In addition, we construct a large-scale synthetic dataset containing more than 190k objects under diverse environmental conditions to enhance robustness and generalization. Extensive evaluations across multiple benchmarks demonstrate our state-of-the-art performance, yielding an average AR improvement of 5.1% over prior methods and achieving up to 17.6% gains on individual datasets, indicating strong generalization to unseen objects. Project page: https://windvchen.github.io/PoseGAM/ .

翻译：6D物体姿态估计（预测物体相对于相机的变换）在应对未见物体时仍具有挑战性。现有方法通常依赖于显式构建查询图像与物体模型或模板图像之间的特征对应关系。本文提出PoseGAM，一种几何感知的多视角框架，可直接从查询图像和多个模板图像中预测物体姿态，无需显式匹配。该方法基于最近的多视角基础模型架构，通过两种互补机制整合物体几何信息：显式的基于点的几何信息与来自几何表示网络的学习特征。此外，我们构建了一个包含超过19万个物体的大规模合成数据集，覆盖多种环境条件，以增强鲁棒性与泛化能力。在多个基准上的大量评估表明，我们的方法达到了最先进的性能，相较于先前方法平均AR提升5.1%，在个别数据集上最高提升达17.6%，展现出对未见物体的强泛化能力。项目页面：https://windvchen.github.io/PoseGAM/ 。

0

相关内容

多视角

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

27+阅读 · 2024年5月15日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

NeurIPS 2021 | AP-10K：学界最大动物姿态估计数据集问世，更多数量、更多种类、更多任务

NeurIPS 2021 | AP-10K：学界最大动物姿态估计数据集问世，更多数量、更多种类、更多任务

专知会员服务

14+阅读 · 2021年11月4日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

41+阅读 · 2020年12月29日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

专知会员服务

34+阅读 · 2020年3月21日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

基于多芯光纤的高精度三维姿态测量关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Rotational Symmetry based Object Pose Estimation from Point Clouds in the Absence of Known 3D Models

Arxiv

0+阅读 · 6月15日

Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation

Arxiv

0+阅读 · 6月15日

High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians

Arxiv

0+阅读 · 6月14日

MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances

Arxiv

0+阅读 · 6月12日

Efficient Online 3D Multi-Camera Multi-Object Tracking and Pose Estimation

Arxiv

0+阅读 · 6月12日

Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization

Arxiv

0+阅读 · 6月9日

COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation

Arxiv

0+阅读 · 6月5日

Haptic Sorter: A Unified Planning Framework for Online Shape Estimation and Real-Time Pose Inference

Arxiv

0+阅读 · 5月29日

Cambrian-P: Pose-Grounded Video Understanding

Arxiv

0+阅读 · 5月21日

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

物体姿态估计

最新内容

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

0+阅读 · 22分钟前

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

相关VIP内容

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

27+阅读 · 2024年5月15日

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

【MIT博士论文】鲁棒几何感知的数据关联算法与表示，176页pdf

专知会员服务

31+阅读 · 2024年2月3日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

NeurIPS 2021 | AP-10K：学界最大动物姿态估计数据集问世，更多数量、更多种类、更多任务

NeurIPS 2021 | AP-10K：学界最大动物姿态估计数据集问世，更多数量、更多种类、更多任务

专知会员服务

14+阅读 · 2021年11月4日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

41+阅读 · 2020年12月29日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

专知会员服务

34+阅读 · 2020年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《履带式无人地面战车技术发展现状》

隐身技术前沿综述：物理机理、工程实践与战略展望

相关资讯

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

相关论文

Rotational Symmetry based Object Pose Estimation from Point Clouds in the Absence of Known 3D Models

Arxiv

0+阅读 · 6月15日

Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation

Arxiv

0+阅读 · 6月15日

High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians

Arxiv

0+阅读 · 6月14日

MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances

Arxiv

0+阅读 · 6月12日

Efficient Online 3D Multi-Camera Multi-Object Tracking and Pose Estimation

Arxiv

0+阅读 · 6月12日

Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization

Arxiv

0+阅读 · 6月9日

COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation

Arxiv

0+阅读 · 6月5日

Haptic Sorter: A Unified Planning Framework for Online Shape Estimation and Real-Time Pose Inference

Arxiv

0+阅读 · 5月29日

Cambrian-P: Pose-Grounded Video Understanding

Arxiv

0+阅读 · 5月21日

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Arxiv

0+阅读 · 5月12日

相关基金

基于多芯光纤的高精度三维姿态测量关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员