在计算机视觉与图形学的交叉领域,如何高效、精确地表示三维世界一直是一个核心议题。从传统的网格与点云,到近年来的神经辐射场(NeRF)和三维高斯溅射(3D Gaussian Splatting),学习式3D表征的飞速发展为场景重建、新视角合成、内容生成乃至机器人自主导航等应用带来了革命性的变革。然而,面对海量的方法和快速更迭的技术,研究者们往往难以从表征设计的根本逻辑出发,厘清不同技术路线之间的优劣与联系。一篇能够系统梳理该领域脉络、深入剖析表征选择背后权衡关系的综述论文,对于指导研究方向、辅助技术选型具有至关重要的意义。 这篇综述通过建立一个统一的数学模型,将网格、点云等显式表征与神经隐式场、3D高斯溅射等体表征纳入同一分析框架,从“显式与隐式”、“离散与连续”两个基本维度切入,系统地梳理了从传统几何建模到现代学习式表征的完整技术演进路线。文章不仅深入分析了各类表征的核心原理、可微性、内存效率与渲染速度等关键属性,还将其应用拓展至真实世界大场景、复杂材质建模、动态场景重建等更具挑战性的实际场景中。这种从基础原理到前沿应用的系统性组织,为读者提供了一幅清晰且全面的技术全景图。 本文是一篇投稿至《COMPUTER GRAPHICS Forum》的综述,并未提出统一的新实验,而是通过对数百篇文献的精妙组织和解构,总结出当前学习式3D表征领域的关键挑战与未来趋势。它将指导读者理解为什么没有“万金油”式的表征,以及如何根据具体任务在精度、速度、可编辑性和泛化性之间做出明智的权衡。无论是刚入门的研究新手,还是寻求技术突破的资深专家,都能从中获得宝贵的洞察与启发。
近年来,基于学习的三维表征取得了显著进展。本综述旨在系统性地梳理这一领域的最新进展与趋势。文章首先提出了一个统一的分类体系,将各类方法归类为显式表征和体表征两大类。显式表征直接参数化表面位置,包括离散的多边形网格和点云,以及连续的神经表面。体表征则将场景属性定义为三维空间中的隐式函数,涵盖传统的体素网格、神经隐式场(如NeRF)以及可微分基本图元(如3D高斯溅射)。在此基础上,本文进一步探讨了将这些表征扩展至真实世界场景(如无界环境、复杂材质和稀疏输入)以及动态场景(涉及刚性与非刚性运动)的挑战与解决方案。最后,文章系统回顾了这些表征在生物数字人、机器人技术、生成式内容创作等领域的典型应用,并指出了当前方法的局限性以及未来的研究方向,特别是在计算效率、泛化能力和物理合理性方面的关键挑战。
图1:综述的层级分类与组织结构,从显式表面、体表示扩展到真实世界场景和动态应用。来源:原论文 PDF 第 1 页。 众多计算机视觉和图形学任务都依赖于对物体和场景的内部3D表征,这包括三维重建、新视角合成与渲染、识别与分割、形状与运动分析以及内容生成。表征是核心的设计选择,它决定了存储什么信息、如何从数据中高效学习、以及如何轻松地查询、渲染、编辑或导出到下游应用。因此,定义正确的表征对于机器人、自动驾驶、计算机图形学、虚拟现实/增强现实(VR/AR)、体育分析、医学诊断、康复治疗、植物表型分析等领域的任何3D应用的成功都至关重要。 传统上,3D信息通过主动传感器(如LiDAR)获取,或通过被动几何方法(如多视角立体视觉和Shape-from-X)恢复,通常产生点云、网格或体素网格等显式表征。近年来,机器学习的兴起将重心转向将3D任务表述为学习问题。因此,许多方法学习更现代的、基于学习的表征,这些表征可以直接从观测数据(如图像、视频、深度图、部分点云)中进行优化,并能高效地用于渲染、编辑或下游分析。这种转变使表征的选择成为核心,因为它决定了什么信息被编码、如何从数据中优化、以及在质量、效率和跨任务适用性之间进行怎样的权衡。 需要强调的是,计算机图形学和CAD中广泛使用的经典连续几何建模表征(如样条和细分曲面、移动最小二乘法和CSG)不在本综述的范围内;我们的比较仅限于基于学习的重建和神经渲染文献。 现有的综述主要从特定任务和监督机制的架构与训练方法入手。与此不同,本综述特别关注基于学习流程中的表征选择,以及它们如何影响优化、可微性、渲染、内存和下游兼容性。文章通过一个统一公式(见第2节)划分了整个3D表征的版图,并根据它们在保真度和可部署性之间的权衡进行分类。传统的离散格式(网格、点云)因其可解释性和与物理引擎的直接兼容性,继续主导工业流程和传感管线。然而,它们可能内存密集,或难以集成到学习和可微渲染管线中。最近的替代方案,包括连续神经场和基于图元的表征(如高斯溅射),旨在提高紧凑性并实现高效的优化和渲染,同时引入了新的权衡。 本文提出了一种基于学习的3D表征的统一分类法,并用它来阐明设计空间和实际的权衡。我们首先阐述问题并介绍分类体系(第2节),然后回顾显式表面表征(第3节)和隐式体表征(第4节),接着讨论扩展到真实世界场景(第5节)和动态场景(第6节)的挑战。最后,我们调研了代表性的应用(第7节),并以开放的挑战和未来方向作为总结(第8节)。
图2:3D 表征版图,按表征类别、连续/离散性质和内存占用组织不同方法。来源:原论文 PDF 第 2 页。 现有关于3D形状、运动和外观重建的方法涉及问题的方方面面,从表征和网络架构到训练机制和监督模式。本文聚焦于表征及其对下游任务的重要性。图1提供了论文结构的概览和最新技术的分类。 在本综述中,我们将3D表征定义为可查询的模型,形式如下: fθ: D → S, ξ = fθ(γ(q)) 给定一个查询q(可选地经过编码encode处理),该函数返回一组属性ξ。域D依赖于表征,可能跨越连续空间(如3D坐标、视角方向、时间)或离散集合(如体素、像素或图元索引)。同样,输出空间S涵盖了多样的属性,从几何属性(如占用率、有符号距离、位置)到外观属性(如辐射度、球谐函数、纹理)。这个统一的公式弥合了显式/离散表征与隐式/神经表征之间的差距。根本区别在于映射在结构上是显式还是隐式,以及其域是离散的还是连续的。 显式表征定义了形式为 f: D → R³ × A的显式映射函数。当域D被离散化时,我们得到多边形网格和点云。神经表面则直接在连续域上操作,无需预先离散化。它们理论上是紧凑且分辨率无关的,可以表示任意细节层次的3D物体,但通常限于固定拓扑(通常是低亏格)。 隐式表征(如体占用率或有符号距离网格)可以表示任意拓扑的物体和场景。其优势在于规则的结构,可被卷积操作处理。在离散形式下,它们因高内存需求而计算昂贵。其全部潜力在连续可查询模型(如神经场)中得以显现。无界场景表征解决了3D表征的空间局限性。传统方法通常限于固定大小的有界域,而真实世界环境(如城市场景或开阔景观)需要能高效适应可变空间范围的表征。动态表征则扩展了3D表征以捕捉随时间变化的几何和外观,不仅表示静态3D物体,还编码其运动和变形。
图3:3D 表征视觉总览,从表面表示过渡到体表示,并提示动态表征对时间维度的扩展。来源:原论文 PDF 第 3 页。 显式表征通过直接在空间域中参数化表面位置来描述3D几何。根据域D的性质,显式表征分为离散表征和连续表征。离散表征使用有限样本集(如多边形网格或点云)近似几何;连续表征则依赖可学习函数以平滑可微的方式定义表面。
离散显式表征通过离散化域D,将表面编码为多边形网格或点云。尽管连续表征取得了进展,离散格式因其在行业3D软件、动画管线、游戏引擎、视觉特效和物理仿真中的深度集成,仍是计算机图形学中不可或缺的部分。然而,将网格和点云集成到神经网络中面临基本挑战:它们缺乏规则的网格对齐结构,使得标准卷积和池化操作不适用。方法必须处理数据的不规则性,需要排列不变性以及处理高度可变、非均匀和无序结构的能力。 基于网格的表征:多边形网格是分段线性近似。参数θ显式存储为3D顶点位置和连接图。关键挑战在于设计能有效处理这种不规则图结构的神经架构。方法可分类为顶点基、边缘基、面基和序列基方法。顶点基方法通过将测地图块映射到2D域或使用图神经网络来学习。边缘基方法利用封闭2-流形网格的边缘拓扑特性。面基方法直接操作三角形本身,如MeshNet及其后续改进SubdivNet。序列基方法则将3D网格序列化为1D序列,利用大型Transformer或状态空间模型捕捉全局上下文,如MeshGPT。 基于点的表征:点云是一组无序的3D坐标,通常附带法线、颜色等属性。在点集上学习的首要挑战是实现对排列的不变性。PointNet通过共享MLP和全局最大池化实现了这一点。后续工作通过分层学习在嵌套局部邻域中应用MLP来捕捉局部几何上下文。从点云中提取水密流形网格是基本问题,有基于优化的方法(如泊松表面重建)和基于学习的方法(如PCN、POCO),后者的优势在于处理稀疏或受严重污染的输入。
连续显式表征通过可微通用函数(如MLP)参数化从2D参数域到3D表面的映射,也称神经表面。通过将2D域(如多个UV图块)参数化到3D空间,它们继承了2D CNNs的结构优势,并规避了网格和点云的离散限制。然而,它们的拓扑灵活性有限,表现能力与所需的UV图块数量成正比,且多数需要地面真值3D监督。在处理真实世界场景时,常需离散化为网格以兼容现有软件。
体表征将域D定义为R³的子集。每个点的形状属性被隐式定义为占用率或有符号距离函数。从理论上讲,这种连续表示允许以任何分辨率提取几何。体表征传统上依赖离散的3D体素网格,但其计算效率在高分辨率下降低。为了缓解这个问题,八叉树等分层空间划分方法利用了空间稀疏性。最近的连续隐式表征通过将场景建模为连续函数来绕过这些挑战,使得端到端可微,并促进了与现代架构的集成。
传统上,连续隐式函数使用径向基函数参数化。RBF是形如 f(p) = P(p) + Σ αᵢ B(‖p-pᵢ‖) 的函数。常用的基函数包括薄板样条、高斯函数(各向同性或各向异性)、多二次函数和双调和/三调和样条。使用RBF的主要挑战是基函数的选择,因为单一类型无法建模所有几何特征。分区单位(PoU)框架通过使用八叉树划分形状,为每个单元选择最优基函数来解决这一问题。
图4:神经隐式表征架构,几何网络预测 SDF/密度等表面属性,外观网络结合视角回归颜色。来源:原论文 PDF 第 7 页。 神经隐式函数是RBF网络到多层感知器(MLP)的泛化。近年来,这些方法复兴,通过MLP参数化,将几何编码为SDF或占用值。DeepSDF实现了一个能表示多个SDF的网络。一个关键挑战是表示高频变化,标准ReLU MLP倾向于低频信号。两种主流解决方案是傅里叶特征映射和周期激活网络(如SIREN)。
NeRF将查询定义为5D输入(3D位置和2D视角方向),输出为体密度和视角相关的颜色。它利用可微体渲染从2D图像优化3D表征。体渲染积分通过数值求积(分层采样)近似。输入编码是学习高质量映射的关键,例如位置编码和集成位置编码。为加速NeRF,后续工作采用了细分、表面定位、烘焙、高效积分和优化输入编码等策略。细分策略将场景分割成空间单元,每个单元由小型MLP表示。表面定位方法跳过空区域的计算。预计算静态元素到网格中的方法加速了渲染。替代蒙地卡罗积分的方法,如球谐函数或与视线相关的预计算,被用于加速体渲染积分。最后,学习型的输入编码,如多分辨率哈希编码,取代了手工设计的编码。
图5:3D Gaussian Splatting 渲染管线,从 SfM 稀疏点云初始化高斯,到投影、分块、深度排序和 alpha blending。来源:原论文 PDF 第 13 页。 3DGS将场景建模为大量3D高斯图元,每个图元由其参数(位置、协方差、不透明度和与视角相关的反射率)定义。它通过可微光栅化将高斯“溅射”到2D图像上。通过自适应的控制机制(克隆和分裂)和修剪机制,优化的高斯表征能实现实时渲染。对3DGS的优化在保持其速度优势的同时,着力解决其在地面真实几何建模、抗锯齿和伪影处理方面的局限性。改进包括优化各项异性、密度控制、正则化、使用更高效的基函数、以及调整表示和优化方式。此外,研究者探索了替代图元,如高斯基函数、椭圆体、轴对齐体素、凸包和四面体,以更好地捕捉精细结构。为了结合3DGS速度和神经场表达能力,混合表征被提出,例如在稀疏网格中嵌入轻量级MLP作为高斯属性函数,或使用“可溅射神经图元”。
体表征部分是全文最长、技术密度最高的章节。论文把这一部分组织为从传统 volumetric grid、神经隐式函数、NeRF,到加速优化和 differentiable primitive splatting 的连续演进。其共同点是,表征不再只描述表面采样点,而是在三维空间中定义一个可查询的场:给定空间位置、视角或时间等查询变量,模型返回占据、符号距离、密度、颜色、辐射或其他属性。这样的形式天然适合可微优化和新视角合成,但也带来计算、存储和渲染效率问题。 神经隐式表征的关键价值在于连续性。SDF、occupancy field 和 radiance field 可以用一个函数描述任意位置的几何或外观,避免固定分辨率网格的内存爆炸,也能表示更平滑的表面。代价是查询需要经过网络前向传播,训练和渲染都可能较慢;此外,MLP 对高频细节存在 spectral bias,因此论文提到 Fourier features、SIREN 等输入编码和激活设计,用来提升细节表达能力。 NeRF 把体密度和视角相关颜色结合起来,通过可微体渲染从多视角图像中学习场景。它改变了三维重建的监督方式:不需要直接监督几何,只要图像重投影误差即可优化场景表示。但原始 NeRF 也暴露出瓶颈:每条光线需要大量采样点,每个采样点都要查询网络,导致训练和渲染成本高。因此论文把后续加速方法归纳为几类:空间细分、跳过空区域、把静态内容 baking 到网格、改进积分方式,以及优化输入编码。它们本质上都在回答同一个问题:如何保留连续神经场的质量,同时把查询成本压到可交互甚至实时。 3D Gaussian Splatting 则代表了近两年最重要的转向之一。它不再用连续 MLP 逐点查询,而是用一组显式高斯 primitive 表示场景,通过投影、tile-based rasterization、深度排序和 alpha blending 高效渲染。这让训练收敛和实时渲染显著更实用,也让神经 3D 表征重新靠近图形学中的显式 primitive 管线。论文把 3DGS 视为 primitive-based rasterization 与 NeRF 式可微优化之间的桥梁:它继承了可优化图像监督,也获得了更高的渲染速度,但仍面临几何质量、压缩、反走样、动态场景和物理可编辑性等挑战。
在受控设置下,NeRF和3DGS取得了照片级真实的重建,但将其扩展到真实世界场景仍面临挑战。
标准神经辐射场关注小规模和物体为中心的表征,但真实场景可能是无界的。挑战包括参数化(无界360度场景可能占据任意大的欧几里得空间)和歧义性(远处内容观察少)。常用策略是空间扭曲法,将无界空间映射到有界空间。主要扭曲策略包括:NDC扭曲(适用于前向场景)、逆球体扭曲(适用于360度场景)和透视扭曲(使扭曲空间中的轴对齐网格与相机光线对齐,更适合自由相机轨迹)。消除对已知相机位姿需求的方法包括联合优化位姿和神经表征,或利用单目深度先验、时间连续性进行增量位姿估计。在大规模场景中,分治策略被广泛采用,如Block-NeRF和Mega-NeRF将场景划分为多个块,每个块由小型MLP表示。后续工作探索了可学习的划分和基于3DGS的大规模场景重建。
NeRF和3DGS在处理具有视角依赖效果的物体(如半透明或高光物体)时会产生模糊的伪影。这是因为体渲染在颜色空间中累积特征,且密度值σ的计算与视角方向无关。准确的渲染需要估计场景照度和材质属性(BRDF)。一些方法使用神经场学习反射率场,将场景表示为体密度、表面法线和BRDF的场。尽管这些方法取得了改进,但优化和渲染速度慢。近期工作将逆渲染技术适应到3DGS,简化经典渲染方程以处理镜面反射,但引入了材质和几何噪声。
NeRF和3DGS对训练数据过度拟合,只能表征单一场景。为了泛化,方法学习一种基于输入图像条件的渲染函数。这可以通过从源图像学习通用几何先验(如特征体积或基于Transformer的注意力模块)来实现。通过将多视角立体视觉(MVS)策略融入NeRF和3DGS管线,可以增强跨数据集泛化能力,并有效处理稀疏输入。此外,使用掩码自编码器与Transformer结合的方法也被用于学习可推广的3D表征。这些方法带来了泛化能力,但通常需要大量的训练时间。
真实世界场景表征并不是把前面的方法简单放大。论文强调,真实场景通常同时包含未校准相机、开放边界、复杂光照、非朗伯材质、稀疏输入和跨场景泛化等问题。NeRF 与 3D Gaussian Splatting 在受控数据集上可以取得很好的视觉质量,但一旦进入街景、室内大空间、车载感知、医学图像或机器人现场,表示能力会受到相机姿态误差、遮挡、尺度变化和观测稀疏性的共同制约。 无约束表征首先要处理相机姿态问题。标准 NeRF 和 3DGS 往往依赖准确相机位姿,通常由 Structure-from-Motion 或类似工具提供。若位姿存在噪声,渲染会模糊、几何会漂移,训练也更不稳定。因此,BARF 等工作尝试把场景表征与相机姿态一起优化,把原本强依赖外部配准的流程变成联合估计问题。对于大尺度场景,论文提到的主要思路是分块、层次化、稀疏化和多分辨率编码:不是用一个统一网络吞下整个世界,而是把空间切分成更易训练和渲染的局部单元。 材质感知表征则进一步突破“几何加颜色”的简单假设。真实世界中的金属、玻璃、镜面、半透明材料和复杂照明会让纯 radiance field 难以泛化到新光照或新视角。论文讨论的 reflectance field、BRDF/照明分解等方向,目标是把外观从观察条件中拆开,使表征不仅能复现训练图像,还能支持重照明、材质编辑和跨环境渲染。可泛化重建面向另一个痛点:单场景优化虽然质量高,但每个新场景都要重新训练,难以部署到在线应用。泛化方法试图从多场景数据中学习可迁移的先验,让模型在新场景上用更少视图和更少优化步骤得到可用表征。
图6:动态表征的两类主线,分别是直接建模时空场的 Space-Time 表征,以及将观测点 warp 到 canonical space 的变形方法。来源:原论文 PDF 第 19 页。 真实世界场景通常由静态和动态物体组成,这些物体经历从关节运动到软材料弯曲等各种运动。3D表征需要表示运动。运动分为刚性和非刚性两类。刚性运动可通过将场景划分为静态和刚性运动组件来建模;非刚性运动则更具挑战性,需要能兼顾空间和时间变化的表征。
该类方法首先学习一个时间全局的规范表征,然后通过变形场将规范空间中的所有3D点扭曲到每个时间步的形变状态。这自动确保了长期对应关系。变形场可由MLP建模,或显式使用多项式、傅里叶变换或学习的基础函数。向后扭曲可能导致映射不连续,而向前扭曲能提供平滑连续的映射。这些方法灵活,但难以应对拓扑变化,主要适用于物体级建模。
该类方法通过直接为查询添加时间维度t,将时间引入场景函数,构建时空场,直接回归动态属性。它们不对变形网络进行建模,而是将3D表征与时间分量直接条件绑定。由于几何约束较少,它们能建模更大范围的运动并容忍拓扑变化,但可能导致时间不一致性,表征依赖观测数量。时间一致性可通过流场在相邻时间步之间进行局部加强。另一种替代策略是定义编码函数为时间的函数,通过插值相邻时间槽的离散特征来降低计算负担。
基于MLP的动态表征需要大量计算。近期工作集中于扩展基于特征网格的优化到动态内容。直接为每个时间步使用特征编码会导致巨大的内存成本。解决方案是使用单个规范特征空间,将输入点先变形到规范空间再查询特征,或使用基于少量时空特征平面和轻量级MLP的表征。
动态场景表征的核心是把静态三维表征扩展到时间维度。论文把主流方法分为两类:基于形变的方法和时空表征。前者通常学习一个 deformation field,把不同时刻观测到的点映射回 canonical space,再用静态表征读取几何和外观;后者直接把时间作为输入维度,构建空间-时间场,对随时间变化的几何和外观进行联合建模。 基于形变的方法的优势是结构清晰,便于复用成熟的静态 NeRF 或 3DGS 表征。它特别适合存在相对稳定拓扑的场景,例如人体、动物、手部、衣物或可追踪物体。其风险在于,当拓扑变化剧烈、遮挡频繁或运动幅度很大时,canonical space 的假设会变弱,形变场可能产生不稳定映射。空间-时间表征则更直接,把时间维度纳入查询函数,允许模型直接表示随时间变化的密度、颜色和不透明度。它的灵活性更高,但计算和存储压力也更大,并且容易受到观测数量、时间采样密度和长期一致性的限制。 论文还讨论了动态表征中的 feature-grid encoding。多分辨率网格、哈希编码和分解式特征场可以显著降低动态场景的训练与渲染成本,使长序列和大范围运动更可处理。总体来看,动态 3D 表征的难点不只是“多一个时间变量”,而是要在时间一致性、几何保真、外观稳定、编辑能力和实时性能之间重新平衡。
图7:神经 3D 表征的典型应用,包括人体重建、医学成像、SLAM、动物重建和植物重建。来源:原论文 PDF 第 20 页。 基于学习的3D表征极大地降低了3D视觉的进入门槛,拓展了其应用范围。
重建人类和动物面临着严格的解剖学和运动学约束。他们非刚性变形,必须遵循骨骼结构。为了应对这一挑战,后续方法通过嵌入运动学先验来增强表征,将神经场或高斯溅射锚定到参数化模板(如SMPL、MANO、3DMM)。这种混合方法——将可学习体外观与显式骨骼指导相结合——已成为高质量数字化身和动作捕捉的标准。
现代3D表征在建模不同物理模态方面展现出灵活性。在医学影像中,它们被用于从稀疏X射线投影重建解剖结构,以及通过集成声学传播模型合成新的超声视图。在机器人与自主导航中,表征被针对非视觉传感器(如LiDAR)进行定制,例如通过开发用于新颖LiDAR视图合成的可微框架和在神经表征中引入概率损失来处理激光回波的随机性。这种跨模态适应性将3D表征从纯视觉工具转变为融合异构传感器数据的通用基板。
机器人和自主导航对3D表征提出了最严格的要求:它们必须能够随着机器人探索而增量学习、实时运行、并对传感器噪声具有鲁棒性。早期方法受限于MLP的慢收敛速度。近期方法通过采用基本图元溅射(如3DGS)用于SLAM,实现了实时和在线映射,并能处理4D动态场景。
在创意产业中,主要目标从重建观察到的内容转向生成想象的内容。为了生成未见区域的可信几何和纹理,方法利用从互联网规模2D基础模型提取的语义和视觉先验来增强3D表征。文本到3D通过分数蒸馏采样(SDS)实现,使用冻结的2D文本到图像扩散模型优化3D表征。单图像到3D通过微调的多视图感知2D扩散模型预测一致的新视图,然后融合到3D表征中。语义感知和编辑方面,方法将语言嵌入蒸馏到体场中,使得能够使用自然语言查询和编辑物体部分。
论文第 7 节的价值在于,它没有把 3D 表征停留在算法分类,而是讨论不同应用如何反过来塑造表征需求。人体、动物和植物等生物对象带有强解剖和运动约束:人体重建需要尊重骨架、关节、皮肤形变和服装细节;动物和植物则涉及更复杂的非刚性结构、拓扑变化和细粒度纹理。对于这些任务,表征必须同时具备可学习外观、可解释几何和一定的结构先验。 医学成像强调跨模态与稀疏观测。论文提到,神经表征和 primitive-based 方法可以用于从 X-ray、CT、超声等模态中重建高保真结构,也可以把声学传播、体数据重建和稀疏投影视为连续场学习问题。此时,表征质量不能只看渲染是否逼真,还要看结构是否可靠、是否符合医学诊断或测量需求。SLAM 与机器人则更强调增量学习、闭环运行和抗噪声能力。机器人探索环境时,表征必须能被在线更新,能够在传感器噪声、视角变化和动态遮挡下保持稳定,并支持导航、抓取或交互决策。 生成式内容创作是另一个快速增长方向。文本到三维、单图到三维和基于扩散模型的 3D 资产生成,都要求表征既可优化又可编辑。NeRF 和 3DGS 可作为生成目标,也可以作为中间容器承接 2D 生成模型的先验。论文指出,这类工作正在把 3D 表征从视觉重建工具转向语义化、可创作、可交互的生成媒介;但它也带来新的挑战,例如几何一致性、可编辑性、物理合理性和跨视角稳定性。
尽管近年来学习式3D表征取得了显著进展,但仍面临关键挑战。 计算效率与内存效率的权衡:隐式神经表征内存高效,但训练和渲染时间长;基于图元的方法渲染快,但内存占用高。未来的方向是发展混合表征,将神经场与图元溅射相结合,例如可溅射神经图元。这种思路有望在保持实时速度的同时,显著减少图元数量,解决内存效率瓶颈。 从优化转向摊销推理:目前的方法主要依赖逐场景优化。未来研究将从条件于局部特征的NeRF转向利用预训练的基础模型,开发能直接前馈回归3D结构的表征,实现零样本重建,无需逐分钟优化。 鲁棒性和实际部署:许多管线依赖脆弱的先决条件,如准确的相机位姿。设计能优雅应对诸如卷帘快门、运动模糊、光照变化、动态内容等恶劣条件的表征和目标,并减少管线复杂性,是实际应用的关键障碍。 解决形状与辐射的歧义性:当前方法主要优化光度误差,导致产生“雾”、“漂浮物”等满足渲染损失但不具物理结构的伪影。尽管这对纯新视角合成可接受,但严重限制了在几何关键领域(如计量学、机器人交互)的适用性。开发同时具有逼真视觉效果、几何精确性和计算效率的统一表征仍是一个未解难题。 物理合理性与真实世界约束:当前神经表征大多与物理原理脱节,忽略材料属性和动态交互。将通用物理先验集成到学习式3D中,将为预测性仿真、机器人操作和交互式虚拟环境铺平道路。 结论:回顾过去几年,3D和4D表征领域取得了巨大进步。未来的研究应致力于开发能跨场景和物体类型泛化、支持高效训练和实时推理、并融入语义和物理理解的表征。结合图元速度与神经场紧凑性的混合表征将是一个重要方向。随着领域发展,关注点正从孤立的技术进步转向更集成的系统——能处理现实复杂性、理解物理交互、并顺利与2D和3D传感技术协同工作。机器学习、计算机视觉和计算机图形的交叉点将推动该领域的下一波突破。
论文最后强调,学习式 3D 表征仍处在快速演化阶段。一个核心开放问题是表示统一性:mesh、point cloud、voxel、NeRF、3DGS、hybrid primitive 各有优势,但目前仍缺少一种能同时满足高质量渲染、可编辑几何、实时交互、紧凑存储和下游兼容性的通用表征。未来很可能不是单一形式取代所有形式,而是多种表征的混合:显式结构提供可编辑性和工程接口,隐式场提供连续性和可微优化,primitive splatting 提供速度和视觉质量,特征网格与哈希编码提供可扩展性。 第二个问题是评估标准。传统指标往往关注重建误差、渲染质量或几何距离,但真实应用更关心可编辑性、可压缩性、可导出性、实时性、物理一致性和跨场景泛化能力。对于机器人、医学和自动驾驶等场景,表征还需要服务于下游决策和安全约束,而不是只追求视觉逼真。因此,未来 benchmark 需要同时评估表征作为“视觉模型”和“可操作世界模型”的能力。 第三个问题是动态与真实世界规模。大规模开放场景、长时间动态序列、复杂材质和多模态输入会持续挑战现有方法。论文的总体判断是,3D 表征正在从传统离散格式走向可学习、可微、连续和任务驱动的形式;这种范式变化会深刻影响重建、渲染、编辑、感知、生成和机器人工作流。对研究者而言,关键不只是追逐某一种新表示,而是理解每种表示在效率、质量、可微性、可编辑性和部署兼容性之间的取舍。
英文题目: Recent Advances and Trends in Learning-based 3D Representations 作者: Adrien Schockaert, Hamid Laga, Hazem Wannous, Vincent Magnier, Guillaume Dufaye, Jean-françois Witz arXiv ID: 2606.04871 类别: cs.CV Comments/项目信息: submitted to COMPUTER GRAPHICS Forum (6/2026) 原文链接: https://arxiv.org/abs/2606.04871