PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views - 专知论文

会员服务 ·

0

三维形状 · 形状检索 · 遮挡 · 合成 · 鲁棒 ·

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

翻译：标题：PASR：面向遮挡单视图的位姿感知三维形状检索

Jiaxin Shi,Guofeng Zhang,Wufei Ma,Naifu Liang,Adam Kortylewski,Alan Vuile

Single-view 3D shape retrieval is a fundamental yet challenging task that is increasingly important with the growth of available 3D data. Existing approaches largely fall into two categories: those using contrastive learning to map point cloud features into existing vision-language spaces and those that learn a common embedding space for 2D images and 3D shapes. However, these feed-forward, holistic alignments are often difficult to interpret, which in turn limits their robustness and generalization to real-world applications. To address this problem, we propose Pose-Aware 3D Shape Retrieval (PASR), a framework that formulates retrieval as a feature-level analysis-by-synthesis problem by distilling knowledge from a 2D foundation model (DINOv3) into a 3D encoder. By aligning pose-conditioned 3D projections with 2D feature maps, our method bridges the gap between real-world images and synthetic meshes. During inference, PASR performs a test-time optimization via analysis-by-synthesis, jointly searching for the shape and pose that best reconstruct the patch-level feature map of the input image. This synthesis-based optimization is inherently robust to partial occlusion and sensitive to fine-grained geometric details. PASR substantially outperforms existing methods on both clean and occluded 3D shape retrieval datasets by a wide margin. Additionally, PASR demonstrates strong multi-task capabilities, achieving robust shape retrieval, competitive pose estimation, and accurate category classification within a single framework.

翻译：摘要：单视图三维形状检索是一项基础且富有挑战性的任务，随着三维数据量的增长，其重要性日益凸显。现有方法主要分为两类：一类利用对比学习将点云特征映射到现有视觉-语言空间，另一类则学习二维图像与三维形状的共享嵌入空间。然而，这些前馈式的整体对齐方法通常难以解释，进而限制了其鲁棒性及在真实场景中的泛化能力。针对此问题，我们提出了位姿感知三维形状检索（PASR）框架——通过将二维基础模型（DINOv3）的知识蒸馏至三维编码器，将检索任务形式化为特征层面的分析-合成问题。通过将位姿条件化的三维投影与二维特征图对齐，我们的方法弥合了真实世界图像与合成网格之间的鸿沟。在推理阶段，PASR通过分析-合成进行测试时优化，联合搜索能最佳重构输入图像块级特征图的形状与位姿。这种基于合成的优化方法本质上对部分遮挡具有鲁棒性，且对细粒度几何细节敏感。在干净和遮挡的三维形状检索数据集上，PASR均以显著优势大幅超越现有方法。此外，PASR展现出强大的多任务能力，可在单一框架内实现鲁棒的形状检索、具有竞争力的位姿估计以及准确的类别分类。

0

相关内容

三维形状

物体的三维形状，三维几何学

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

【CVPR2024】探索视觉基础模型的三维感知能力

【CVPR2024】探索视觉基础模型的三维感知能力

专知会员服务

28+阅读 · 2024年4月16日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

ECCV2020 | SMAP: 单步多人绝对三维姿态估计

ECCV2020 | SMAP: 单步多人绝对三维姿态估计

学术头条

10+阅读 · 2020年8月9日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

Revisiting Map Relations for Unsupervised Non-Rigid Shape Matching

Arxiv

0+阅读 · 5月4日

S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models

Arxiv

0+阅读 · 4月20日

Multi-View Hierarchical Graph Neural Network for Sketch-Based 3D Shape Retrieval

Arxiv

0+阅读 · 4月20日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

Pair2Scene: Learning Local Object Relations for Procedural Scene Generation

Arxiv

0+阅读 · 4月13日

Steerable Visual Representations

Arxiv

0+阅读 · 4月2日

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Arxiv

0+阅读 · 3月30日

SonoWorld: From One Image to a 3D Audio-Visual Scene

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

GraphiContact: Pose-aware Human-Scene Robust Contact Perception for Interactive Systems

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

【CVPR2024】探索视觉基础模型的三维感知能力

【CVPR2024】探索视觉基础模型的三维感知能力

专知会员服务

28+阅读 · 2024年4月16日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

ECCV2020 | SMAP: 单步多人绝对三维姿态估计

ECCV2020 | SMAP: 单步多人绝对三维姿态估计

学术头条

10+阅读 · 2020年8月9日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

相关论文

Revisiting Map Relations for Unsupervised Non-Rigid Shape Matching

Arxiv

0+阅读 · 5月4日

S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models

Arxiv

0+阅读 · 4月20日

Multi-View Hierarchical Graph Neural Network for Sketch-Based 3D Shape Retrieval

Arxiv

0+阅读 · 4月20日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

Pair2Scene: Learning Local Object Relations for Procedural Scene Generation

Arxiv

0+阅读 · 4月13日

Steerable Visual Representations

Arxiv

0+阅读 · 4月2日

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Arxiv

0+阅读 · 3月30日

SonoWorld: From One Image to a 3D Audio-Visual Scene

Arxiv

0+阅读 · 3月30日

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Arxiv

0+阅读 · 3月23日

GraphiContact: Pose-aware Human-Scene Robust Contact Perception for Interactive Systems

Arxiv

0+阅读 · 3月19日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于超图的三维模型检索方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员