Single-view 3D shape retrieval is a fundamental yet challenging task that is increasingly important with the growth of available 3D data. Existing approaches largely fall into two categories: those using contrastive learning to map point cloud features into existing vision-language spaces and those that learn a common embedding space for 2D images and 3D shapes. However, these feed-forward, holistic alignments are often difficult to interpret, which in turn limits their robustness and generalization to real-world applications. To address this problem, we propose Pose-Aware 3D Shape Retrieval (PASR), a framework that formulates retrieval as a feature-level analysis-by-synthesis problem by distilling knowledge from a 2D foundation model (DINOv3) into a 3D encoder. By aligning pose-conditioned 3D projections with 2D feature maps, our method bridges the gap between real-world images and synthetic meshes. During inference, PASR performs a test-time optimization via analysis-by-synthesis, jointly searching for the shape and pose that best reconstruct the patch-level feature map of the input image. This synthesis-based optimization is inherently robust to partial occlusion and sensitive to fine-grained geometric details. PASR substantially outperforms existing methods on both clean and occluded 3D shape retrieval datasets by a wide margin. Additionally, PASR demonstrates strong multi-task capabilities, achieving robust shape retrieval, competitive pose estimation, and accurate category classification within a single framework.


翻译:摘要:单视图三维形状检索是一项基础且富有挑战性的任务,随着三维数据量的增长,其重要性日益凸显。现有方法主要分为两类:一类利用对比学习将点云特征映射到现有视觉-语言空间,另一类则学习二维图像与三维形状的共享嵌入空间。然而,这些前馈式的整体对齐方法通常难以解释,进而限制了其鲁棒性及在真实场景中的泛化能力。针对此问题,我们提出了位姿感知三维形状检索(PASR)框架——通过将二维基础模型(DINOv3)的知识蒸馏至三维编码器,将检索任务形式化为特征层面的分析-合成问题。通过将位姿条件化的三维投影与二维特征图对齐,我们的方法弥合了真实世界图像与合成网格之间的鸿沟。在推理阶段,PASR通过分析-合成进行测试时优化,联合搜索能最佳重构输入图像块级特征图的形状与位姿。这种基于合成的优化方法本质上对部分遮挡具有鲁棒性,且对细粒度几何细节敏感。在干净和遮挡的三维形状检索数据集上,PASR均以显著优势大幅超越现有方法。此外,PASR展现出强大的多任务能力,可在单一框架内实现鲁棒的形状检索、具有竞争力的位姿估计以及准确的类别分类。

0
下载
关闭预览

相关内容

物体的三维形状,三维几何学
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【CVPR2024】探索视觉基础模型的三维感知能力
专知会员服务
28+阅读 · 2024年4月16日
专知会员服务
67+阅读 · 2021年5月21日
【北京大学】CVPR 2020 | PQ-NET:序列化的三维形状生成网络
ECCV2020 | SMAP: 单步多人绝对三维姿态估计
学术头条
10+阅读 · 2020年8月9日
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员