We present ProFuse, an efficient context-aware framework for open-vocabulary 3D scene understanding with 3D Gaussian Splatting (3DGS). The pipeline enhances cross-view consistency and intra-mask cohesion within a direct registration setup, adding minimal overhead and requiring no render-supervised fine-tuning. Instead of relying on a pretrained 3DGS scene, we introduce a dense correspondence-guided pre-registration phase that initializes Gaussians with accurate geometry while jointly constructing 3D Context Proposals via cross-view clustering. Each proposal carries a global feature obtained through weighted aggregation of member embeddings, and this feature is fused onto Gaussians during direct registration to maintain per-primitive language coherence across views. With associations established in advance, semantic fusion requires no additional optimization beyond standard reconstruction, and the model retains geometric refinement without densification. ProFuse achieves strong open-vocabulary 3DGS understanding while completing semantic attachment in about five minutes per scene, which is two times faster than SOTA.


翻译:本文提出ProFuse,一种面向开放词汇3D场景理解的高效上下文感知框架,基于3D高斯泼溅(3DGS)技术。该流程在直接配准框架内增强了跨视角一致性与掩码内部聚合性,仅引入极小开销且无需渲染监督微调。我们摒弃依赖预训练3DGS场景的传统方案,引入稠密对应引导的预配准阶段:通过跨视角聚类联合构建3D上下文提案的同时,以精确几何信息初始化高斯分布。每个提案通过成员嵌入的加权聚合获得全局特征,该特征在直接配准过程中融合至高斯分布,从而保持跨视角间基元级别的语言连贯性。借助预先建立的关联关系,语义融合除标准重建外无需额外优化,且模型在保持几何优化能力的同时避免了稠密化处理。ProFuse在实现强大开放词汇3DGS理解能力的同时,单场景语义附着仅需约五分钟完成,较当前最优技术提速两倍。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员