3D assets have rapidly expanded in quantity and diversity due to the growing popularity of virtual reality and gaming. As a result, text-to-shape retrieval has become essential in facilitating intuitive search within large repositories. However, existing methods require canonical poses and support few object categories, limiting their real-world applicability where objects can belong to diverse classes and appear in random orientations. To address this challenge, we propose RI-Mamba, the first rotation-invariant state-space model for point clouds. RI-Mamba defines global and local reference frames to disentangle pose from geometry and uses Hilbert sorting to construct token sequences with meaningful geometric structure while maintaining rotation invariance. We further introduce a novel strategy to compute orientational embeddings and reintegrate them via feature-wise linear modulation, effectively recovering spatial context and enhancing model expressiveness. Our strategy is inherently compatible with state-space models and operates in linear time. To scale up retrieval, we adopt cross-modal contrastive learning with automated triplet generation, allowing training on diverse datasets without manual annotation. Extensive experiments demonstrate RI-Mamba's superior representational capacity and robustness, achieving state-of-the-art performance on the OmniObject3D benchmark across more than 200 object categories under arbitrary orientations. Our code will be made available at https://github.com/ndkhanh360/RI-Mamba.git.


翻译:随着虚拟现实和游戏产业的快速发展,三维资产在数量和多样性上迅速增长。因此,文本到形状检索技术对于促进大型存储库中的直观搜索变得至关重要。然而,现有方法通常要求规范姿态且仅支持少数对象类别,这限制了其在现实场景中的应用——现实中物体可能属于多样类别并以随机方向出现。为解决这一挑战,我们提出了RI-Mamba,首个面向点云的旋转不变状态空间模型。RI-Mamba通过定义全局与局部参考系来解耦姿态与几何特征,并采用希尔伯特排序构建具有几何意义且保持旋转不变性的令牌序列。我们进一步提出一种新颖的方向嵌入计算策略,通过特征级线性调制实现方向信息的重融合,有效恢复空间上下文并增强模型表达能力。该策略天然兼容状态空间模型,且具有线性时间复杂度。为扩展检索规模,我们采用基于自动三元组生成的跨模态对比学习方法,可在无需人工标注的情况下利用多样化数据集进行训练。大量实验证明RI-Mamba具有卓越的表征能力和鲁棒性,在OmniObject3D基准测试中针对200多个物体类别在任意取向下均实现了最先进的性能。代码已开源:https://github.com/ndkhanh360/RI-Mamba.git。

0
下载
关闭预览

相关内容

Mamba综述
专知会员服务
41+阅读 · 2024年8月16日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员