Visual correspondence across image-to-image (2D-2D), image-to-point cloud (2D-3D), and point cloud-to-point cloud (3D-3D) geometric matching forms the foundation for numerous 3D vision tasks. Despite sharing a similar problem structure, current methods use task-specific designs with separate models for each modality combination. We present UniCorrn, the first correspondence model with shared weights that unifies geometric matching across all three tasks. Our key insight is that Transformer attention naturally captures cross-modal feature similarity. We propose a dual-stream decoder that maintains separate appearance and positional feature streams. This design enables end-to-end learning through stack-able layers while supporting flexible query-based correspondence estimation across heterogeneous modalities. Our architecture employs modality-specific backbones followed by shared encoder and decoder components, trained jointly on diverse data combining pseudo point clouds from depth maps with real 3D correspondence annotations. UniCorrn achieves competitive performance on 2D-2D matching and surpasses prior state-of-the-art by 8% on 7Scenes (2D-3D) and 10% on 3DLoMatch (3D-3D) in registration recall. Project website: https://neu-vi.github.io/UniCorrn


翻译:图像到图像(2D-2D)、图像到点云(2D-3D)以及点云到点云(3D-3D)几何匹配中的视觉对应构成了众多3D视觉任务的基础。尽管问题结构相似,但当前方法采用任务特定的设计,为每种模态组合使用独立的模型。我们提出UniCorrn,这是首个具有共享权重的对应模型,统一了所有三种任务的几何匹配。我们的关键洞察在于Transformer注意力机制能够自然地捕捉跨模态特征相似性。我们提出一个双流解码器,保持独立的外观特征流和位置特征流。该设计支持通过可堆叠层进行端到端学习,同时支持跨异构模态的灵活基于查询的对应估计。我们的架构采用模态特定的主干网络,随后是共享的编码器和解码器组件,在结合深度图生成的伪点云与真实3D对应标注的多样化数据上进行联合训练。UniCorrn在2D-2D匹配上取得了具有竞争力的性能,并在注册召回率上相较先前最优方法在7Scenes(2D-3D)上提升了8%,在3DLoMatch(3D-3D)上提升了10%。项目网站:https://neu-vi.github.io/UniCorrn

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
157+阅读 · 2021年10月25日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
从头开始了解Transformer
AI科技评论
25+阅读 · 2019年8月28日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
157+阅读 · 2021年10月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员