The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/


翻译:三维高斯泼溅中基元的空间高效分配是核心基础,因为它直接决定了表示紧凑性、重建速度与渲染保真度之间的协同效果。现有方案——无论是基于迭代优化还是前馈推理——都因依赖缺乏全局场景感知的局部启发式分配策略而在这些目标间存在显著权衡。具体而言,当前前馈方法大多采用像素对齐或体素对齐策略:通过将像素反投影为稠密的视图对齐基元,这些方法将冗余信息固化到三维资产中。随着输入视角增加,表示规模随之膨胀,全局一致性也变得脆弱。为此,我们提出GlobalSlam框架,其核心理念为“先对齐、后解码”。本方法学习一种紧凑的全局隐式场景表示,该表示在解码显式三维几何之前,先编码多视角输入并解决跨视角对应关系。关键在于,该范式无需依赖预训练的像素预测主干网络或复用稠密基线方法中的隐层特征,即可实现紧凑且全局一致的重建。通过采用渐进式训练策略——逐步提升解码容量——GlobalSplam从机制上避免了表示膨胀问题。在RealEstate10K和ACID数据集上,本模型在仅使用1.6万个高斯基元(显著少于稠密管线所需数量)的情况下实现了具有竞争力的新视角合成性能,同时获得轻量级4MB存储空间。此外,GlobalSplat实现了比基线方法更快的推理速度,单次前向传播耗时低于78毫秒。项目页面见https://r-itk.github.io/globalsplat/

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
【NeurIPS2025】Instant4D:高效的4D高斯喷溅方法
专知会员服务
7+阅读 · 2025年10月2日
三维高斯泼溅应用综述:分割、编辑与生成
专知会员服务
17+阅读 · 2025年8月14日
机器人中的三维高斯溅射:综述
专知会员服务
29+阅读 · 2024年10月17日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
全景分割任务介绍及其最新进展【附PPT与视频资料】
人工智能前沿讲习班
11+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员