3D Gaussian Splatting (3DGS) has become a leading technique for real-time neural rendering and 3D scene reconstruction, but its rendering cost remains too high for many latency-sensitive scenarios. In particular, the rasterization stage in 3DGS dominates end-to-end rendering time, during which the renderer repeatedly evaluates each Gaussian's contribution to each covered pixel, making this stage compute-bound. At the same time, modern GPUs provide high-throughput Tensor Cores for low-precision matrix operations, yet existing 3DGS systems execute rasterization entirely on CUDA cores and leave Tensor Cores idle. We find that 3DGS rendering can be executed in FP16 with negligible quality degradation, suggesting a promising opportunity for Tensor Core acceleration. However, exploiting Tensor Cores for 3DGS is non-trivial because rasterization does not naturally match their execution model. Existing 3DGS rasterization is expressed as irregular per-pixel scalar operations, whereas Tensor Cores require dense, regular, and reuse-rich matrix workloads. Moreover, conventional tile-by-tile execution fails to exploit Gaussian reuse across neighboring tiles, resulting in repeated data loading and thus high data movement overhead. To this end, we present TensorGS, a 3DGS acceleration framework using Tensor Cores. TensorGS tensorizes the dominant rasterization computation into Tensor-Core-compatible matrix operations and introduces cross-tile grouping to improve Gaussian reuse, amortize overhead, and increase Tensor Core utilization. Experimental results show that TensorGS improves end-to-end rendering performance by 1.65$\times$ while preserving image quality.


翻译:三维高斯溅射(3D Gaussian Splatting,3DGS)已成为实时神经渲染和三维场景重建的领先技术,但在许多延迟敏感场景中,其渲染成本仍然过高。具体而言,3DGS中的光栅化阶段占据了端到端渲染时间的主导地位,在此过程中,渲染器反复评估每个高斯体对每个覆盖像素的贡献,使得该阶段成为计算密集型任务。同时,现代GPU提供了用于低精度矩阵运算的高吞吐量张量核心,但现有的3DGS系统完全在CUDA核心上执行光栅化,导致张量核心闲置。我们发现,3DGS渲染可以在FP16精度下执行,且质量退化可忽略不计,这表明了利用张量核心加速的可行契机。然而,为3DGS利用张量核心并不简单,因为光栅化与其执行模型不自然匹配。现有3DGS光栅化表示为不规则的逐像素标量运算,而张量核心则需要密集、规则且具有高复用性的矩阵工作负载。此外,传统的逐图块执行方式未能利用相邻图块间的高斯复用,导致数据重复加载,从而产生高昂的数据移动开销。为此,我们提出TensorGS——一种利用张量核心的3DGS加速框架。TensorGS将主导的光栅化计算张量化,转化为与张量核心兼容的矩阵运算,并引入跨图块分组以提高高斯复用、摊薄开销并提升张量核心利用率。实验结果表明,TensorGS在保持图像质量的前提下,将端到端渲染性能提升了1.65倍。

0
下载
关闭预览

相关内容

综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
三维高斯泼溅应用综述:分割、编辑与生成
专知会员服务
17+阅读 · 2025年8月14日
【ICML2025】解决3D语言高斯溅射中的视角依赖语义
专知会员服务
8+阅读 · 2025年6月2日
【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化
专知会员服务
9+阅读 · 2025年4月2日
机器人中的三维高斯溅射:综述
专知会员服务
29+阅读 · 2024年10月17日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员