3D 计算机视觉全局求解器研究进展

****全局求解器（Global solvers）已成为 3D 视觉领域的一种强有力范式，为传统上由局部方法或启发式方法处理的非凸几何优化问题提供了**可证明（certifiable）的解决方案。本综述对几何视觉领域的全局求解器进行了首次系统性回顾，通过对三大核心范式——****分枝定界（Branch-and-Bound, BnB）、**凸松弛（Convex Relaxation, CR）以及渐进非凸性（Graduated Non-Convexity, GNC）的全面分类，实现了该领域的统一。本文介绍了这些范式的理论基础、算法设计，以及旨在提升鲁棒性和可扩展性的实用增强技术，并深入探讨了各范式如何应对几何估计问题中本质的非凸性。我们的分析涵盖了从 Wahba 问题到束调整（Bundle Adjustment）的十大核心视觉任务，揭示了主导求解器选择的最优性-鲁棒性-可扩展性（optimality-robustness-scalability）**权衡关系。此外，我们明确了关键的未来研究方向：在保持保证（guarantees）的同时提升算法规模、将数据驱动的先验与可证明优化相结合、建立标准化基准测试，以及探讨其在安全攸关部署中的社会影响。通过整合理论基础、实践进展及其更广泛的影响，本综述为实现面向现实应用的、可证明且可信的感知系统提供了统一的视角和路线图。持续更新的文献汇总及配套代码教程见 Awesome Global Solvers for 3D Vision。

1 引言 (INTRODUCTION)

几何建模与优化是计算机视觉和机器人领域的核心挑战，旨在估计最符合观测数据的模型参数。这些问题支撑着广泛的应用场景，包括视觉定位 [1]、3D 重建 [2]、即时定位与地图构建 (SLAM) [3]、运动恢复结构 (SfM) [4]、虚拟与增强现实 [5], [6]、自动驾驶 [7] 以及医学成像 [8]。在实践中，这些任务通常被建模为非线性优化问题，并使用 Gauss-Newton [9] 和 Levenberg-Marquardt [10] 等局部方法求解。然而，目标函数和约束条件的强非线性与非凸性使得局部方法对初始化极为敏感。此外，诸如一致性极大化 (Consensus Maximization) [11], [12] 和 M-估计 [13], [14] 等离群点鲁棒估计技术引入了额外的非凸性和组合结构，显著增加了优化景观 (Optimization Landscape) 的复杂性。在过去的二十年里，全局求解器已成为 3D 视觉领域一个至关重要的研究方向，催生了重大进展。现有的方法大致可分为三大核心范式：分枝定界 (Branch-and-Bound, BnB) [15]、凸松弛 (Convex Relaxation, CR) [16], [17] 以及渐进非凸性 (Graduated Non-Convexity, GNC) [18]。从概念上讲，这些方法采用不同的策略来实现全局或近全局解。BnB 通过递归划分和剪枝系统地探索解空间，通过消除可证明的次优区域来保证全局最优性。CR 方法，包括 Shor 松弛、Moment-SOS 层级（其中 SOS 表示平方和）以及其他专门技术，将原始非凸问题重新表述为可处理的凸代用问题（Convex Surrogate），其全局解可以高效计算，并通常能给出原始问题的紧致或可证明的界限。GNC 则构建了从易解凸问题到原始非凸问题的连续变换（即同伦），追踪一条在实践中通常收敛至近全局解的解路径。这些全局方法已成功应用于多种 3D 视觉问题并进行了理论分析，包括 Wahba 问题 [19]、消失点估计 [20]、绝对与相对姿态估计 [21], [22]、3D 配准 [23]、旋转与平移平均 [24], [25]、三角测量 [26]、位姿图优化 [27] 以及束调整 [28]。尽管取得了长足进步，但 3D 视觉全局求解器的统一视角仍然缺失。现有的综述仅涉及该领域的部分方面。例如，[29] 局限于 $L_2/L_\infty$ 和 BnB 等技术，应用限于相对/绝对姿态估计和三角测量；[30] 专注于半正定规划 (SDP) 求解器的可扩展性改进；[31] 综述了 SLAM 的推理与表示方法，其中提及了可证明方法；[32] 是一本专门针对受离群点污染的 3D 问题的专著；[33] 则专门讨论了 SLAM 中的可证明方法及其理论性质。虽然这些工作很有价值，但未能提供一个全面且前沿的视角来：(i) 在结构化分类法下统一全局方法；(ii) 系统比较它们的理论保证与实际权衡；(iii) 覆盖多样化 3D 视觉任务的应用；以及 (iv) 明确开放挑战与未来研究方向。这种整合视角的缺失阻碍了新手和资深研究人员探索及推动该领域的发展。为了填补这些空白，我们提交了首个专门针对 3D 视觉全局求解器的系统性综述。

贡献 (Contributions)

本综述的主要贡献如下： * 统一分类法：我们将全局求解器根据底层原理分为三大类：BnB、CR 和 GNC。针对每一类，我们回顾了核心公式、理论性质，以及为增强鲁棒性和可扩展性而开发的变体。 * 对比分析：我们对全局求解器进行了系统比较，审视了不同方法族在最优性保证、计算复杂度与可扩展性、离群点鲁棒性以及实际部署考量方面的权衡。 * 任务驱动的覆盖：我们调研了全局求解器在经典 3D 视觉问题中的应用，涵盖了 Wahba 问题、消失点估计、绝对与相对姿态估计、3D 配准、旋转和平移平均、三角测量、位姿图优化以及束调整，突出了代表性算法、典型性能权衡及现有空白。 * 基本挑战与未来方向：我们强调了该领域的开放性挑战，并确定了连接理论与实践的研究方向。 * 实践资源与可复现性：我们提供了一个持续更新的在线仓库，包含精选文献、实现指南以及示例代码。代码使用 Python 中的稀疏多项式优化工具箱 (SPOT) [34], [35] 演示了代表性问题的凸松弛建模。

范围 (Scope)

我们关注 3D 视觉中非凸优化的通用全局求解器，涵盖提供可证明全局最优性的方法（BnB、凸松弛），以及在实践中通常能获得近全局解的基于延续（Continuation-based）的方法 (GNC)。虽然基于采样的方法（如 RANSAC [36] 及其变体 [37]–[39]）也提供了一种互补的“全局”估计范式（即对初始化不敏感），但由于它们并非基于优化的方法且已有大量综述 [40], [41]，因此不属于本文范围。我们的范围涵盖基础理论与算法、鲁棒性与可扩展性增强、不同方法的对比分析，以及在多样化 3D 视觉任务中的实际应用。通过阐明这些方面，本综述填补了关键知识空白，可作为 3D 视觉几何优化问题研究者和从业者的基础参考资料。

组织结构 (Organization)

图 1 展示了本综述的结构以及 3D 视觉全局求解器的分类。在第 2 节介绍正式背景和符号后，我们分别在第 3、4、5 节回顾三大主要范式：BnB、CR 和 GNC。对于每种范式，我们均介绍了基础表述、理论性质以及针对鲁棒性和可扩展性的实用增强方案。第 6 节对不同方法进行了对比分析，审视了跨类别及类别内部在最优性、计算复杂度、鲁棒性和部署选择上的权衡。第 7 节调研了全局方法具有重要影响的应用任务，分析了针对特定任务的建模选择和算法配方。第 8 节讨论了主要挑战并提出了具有前景的未来研究方向。第 9 节探讨了该技术的社会影响。最后，第 10 节总结了本综述的主要讨论。总之，全局优化已从一个小众的理论追求演变为构建可靠几何感知系统的实用设计原则。通过整合理论、算法与应用，本综述旨在为未来工作提供连贯的路线图，缩小可证明理论与实际系统之间的差距。