基于深度学习的草图 3D 建模研究综述

在过去的十年中，人工智能的进步彻底改变了基于草图的三维建模技术，并催生了一种被称为“基于深度学习的草图三维建模”（Deep Sketch-Based 3D Modeling, DS-3DM）的新范式。DS-3DM 提供了数据驱动的方法，旨在解决长期以来存在的草图抽象性与歧义性挑战。通过增强草图三维建模接口的灵活性、易用性、保真度和自适应性，DS-3DM 确保了人类在创作过程中的核心地位。本文在一个全新的设计空间 MORPHEUS 下，对最新的 DS-3DM 技术进行了全面的综述。MORPHEUS 基于“输入-模型-输出”（Input-Model-Output, IMO）框架构建，对相关模型（Models）进行了分类，这些模型能够根据人类输入（Human-inputs，在数量和模态上各异）输出**三维表达与组件（Options of 3D Representations and Parts）的备选方案，并跨越不同的用户视角与风格（User-views and Styles）**进行评估。通过 MORPHEUS 空间，我们强调了当前技术的局限性，并指出了计算机视觉（CV）、计算机图形学（CG）及人机交互（HCI）领域跨学科研究的新机遇，揭示了对可控性和信息丰富输出的迫切需求。这些研究方向使设计流程能够更紧密地贴合用户意图，顺应了日益增长的“以用户为中心”方法论趋势。

1. 引言 (Introduction)

在电影《黑客帝国2：重装上阵》的经典场景中，当尼奥（Neo）遇见“设计师”（The Architect）时，镜头从银河系的全景切换到了一支铅笔。这一电影瞬间完美凝练了草图建模（Sketch Modeling）的本质：这是一种能够将设计者的意图从物理世界转化为数字世界的通用方法。事实上，二维草图是快速传达复杂且抽象概念的简单而有效的工具 [HE17b]。如今，挑战在于弥合物理介质与数字介质之间的鸿沟，特别是对于三维建模而言，需要消除草图固有的歧义性，并确保用户的意图被准确捕获并传递到最终的三维数字表达中。缩小这一差距将是实现设计过程民主化的重要一步，从而赋予个人通过草图表达其构思的能力。这一努力的关键组成部分包括评估用户意图与输出结果之间的对齐程度（Alignment）。这种对齐需要开发并迭代“以人为中心”的指标，用以评估生成的三维模型反映用户原始愿景的程度。关键问题随之而来：我们如何量化这种对齐的忠实度（Fidelity）？应使用哪些特定指标来评估输出结果的语义丰富性（Semantic Richness）和几何精确性？我们如何确保嵌入在三维模型中的信息（如标注、上下文或材料属性）能够增强易用性并辅助决策？解决这些问题对于确保从物理草图到数字三维表达的直观且有效的过渡至关重要，同时也促进了更加包容且以用户为中心的三维建模方法。为了支持这一目标，我们在第 6.3 节和表 6 中提供了关于这些指标和潜在研究方向的见解。基于草图的建模接口（Sketch-Based Interfaces for Modeling, SBIM）[LM01, LM95a等] 主要利用二维手绘草图作为输入，而对三维草图接口 [LCX23等] 的探索相对有限。输入模态包括：手绘涂鸦（Doodles，由非专业设计者在几秒钟内完成的抽象画）、基于脚手架的草图（Scaffolding-based sketches）[HLW17]、一点/两点/三点透视图 [THAF24]、轴测草图 [LPBM22]、徒手画 [WLY20]、简笔画（Scribbles）[SJR23]、基于轮廓的草图 [JFD20] 以及设计草图 [ZQG20]。这些模态利用了人类视觉化传达设计想法的天赋能力 [DDS09]，这种能力深植于人类认知和文化之中 [OSCSJ09]。然而，尽管草图是强大的表达工具，但它们仅能捕捉用户全面设计意图的部分表达，如图 2 所示。这些固有歧义且不完整的表达阻碍了现有 SBIM 方法将用户意图准确转化为精确的三维几何结果。作为研究者，我们可能会思考 SBIM 如何解决这一问题，从而捕获未绘出的知识（Unsketched Knowledge），并将用户意图充分传递给信息丰富的三维表达 [YSR20]。为了解决这一问题，现代方法越来越多地依赖数据驱动方法 [LOM18]，从成对的形状与草图数据集中推断缺失信息。为了确保设计者的意图被所有人有效转化和理解，本文探讨了 SBIM 如何捕获未绘出的知识并预测用户意图。一些 SBIM 通过学习草图与三维形状之间的关系（在训练数据集中建模为这两种模态之间的条件分布），确保设计者的意图在三维空间中得到转化。这种学习到的映射使模型能够从部分的草图输入中推断、预测并补全物体的整体形式 [MON19, THAF24]。例如，给定一张沙发的正面草图，模型可以利用先验知识生成不可见的侧面——类似于人类对未见部分做出准确且明智的预测 [EHA12, HLW17]。虽然这些方法在捕捉简单黑白草图的整体语义方面表现出色，但在推断绘图中缺失的其他细节（如颜色、材料或纹理）时却显得力不从心。这些视觉元素对最终设计至关重要，但在未明确提供的情况下，此类模型仍无法触及。

其他 SBIM 则通过草图引导的文本到三维生成模型（Sketch-guided text-to-3D generative models）[LSC24, LZC24] 来应对这些表达限制，允许用户通过文本或语音提供额外的细节（如颜色和材料）。然而，尽管这些模型通常能产生精确且几何准确的表达，但在处理语言驱动的歧义性方面仍存在困难，且在有效传递复杂设计想法方面仍需改进 [LFLG24, CYW24, ZXC24]。准确捕捉意图并消除歧义依赖于人机之间和谐的交互。即使是再完美的草图也可能蕴含多重歧义，因此，无缝交互对于弥合创意意图与精确执行之间的鸿沟至关重要。由于并非每个人都具备高级绘图技能，因此需要一些方法来增强人类通过抽象水平 [KBS23]（通常由简单快速的涂鸦所涵盖 [BKD*24, HE17b]）传达三维表达的能力。通过接口增强人类能力的理念早于 SketchPad [Sut63]，可追溯至 1962 年 Douglas Engelbart 的开创性工作。他在文中阐述了对一种“助手”（Clerk）的需求，该助手通过支持明智的决策并与用户意图对齐来增强人类智能 [Eng62a]。在他的例子中，这种“助手”需要支持建筑师或建造者在设计过程中的工作，这正是我们整篇论文类比并关注建筑环境的原因。

尽管 Engelbart 完美预见了个人电脑的出现，但他忽略了新型 SBIM 在三维内容生成方面的潜力。事实上，游戏和设计平台对三维用户生成内容（UGC）日益增长的需求，突显了对实时多模态生成技术进步的迫切需求 [CLT23, JMB22]。为了响应对新型多模态生成模型的需求，本报告探讨了前沿的 SBIM 技术，为研究人员提供未来的研究方向，并为工业界有效商业化这些进步提供支持，使设计过程与用户意图更紧密地对齐。这种对齐所需的信息因行业和设计阶段而异——例如，建筑中的精确空间几何、游戏中的动态角色模型，或工业设计中的人机工程与功能细节——这强调了针对不同应用量身定制的灵活、以用户为中心的方法的必要性。

为了实现这种灵活性，我们研究了结合草图和学习方法的技术，特别关注草图到三维物体的生成，这在文献中被称为基于深度学习的草图三维建模（Deep Sketch-Based 3D Modeling, DS-3DM） [ZGZS20, ZQG20]。为了促进围绕这一主题的讨论，我们引入了 MORPHEUS，这是一个针对 DS-3DM 方法的设计空间 [CMR90, IIC13]。MORPHEUS 构建于“输入-模型-输出”（IMO）框架之上，对相关模型（Models）进行了分类，这些模型能够根据人类输入（Human-inputs，在数量和模态上各异）输出**三维表达与组件（Options of 3D Representations and Parts）的备选方案，并跨越不同的用户视角与风格（User-views and Styles）**进行评估。MORPHEUS 是一个简单且结构化的设计空间，它识别了这些方法的关键组成部分。

虽然早期的草图综述 [OSCSJ09, CA09] 提供了对三维草图接口的早期见解，但由于当时尚无大规模草图和三维数据集，它们缺乏关于单视图三维重建和生成模型的内容。这导致其覆盖范围局限于集成在传统 WIMP（窗口、图标、菜单、指针）界面中的计算密集型几何方法。较近期的综述 [LB25] 主要侧重于二维草图处理，仅简要涉及 AR/VR 应用中的空间三维笔画。相比之下，我们引入了这些组件，并将这些方法划分为各级类别，详情见第 3 节。总体而言，第 4 节探讨了草图输入模态的多样性（如涂鸦、徒手画和简笔画），展示了社区在扩大输入草图灵活性方面所做的持续努力，以适应不同用户、不同风格及不同视角的绘画。第 5 节根据 AI 模型架构的类型，对 DS-3DM 方法进行了分类与分析。第 6 节提出了一系列定性和定量指标，根据输出的自适应性以及与用户意图的对齐程度对输出进行分类。具体而言，这些指标评估了该方法产生满足用户要求的几何精确且拓扑合适的形状的能力，以及生成多个备选输出并伴随相关信息以辅助用户选择的能力。最后，第 8 节总结了报告中提出的未决挑战，并强调了未来的研究方向。我们的设计空间及相关见解强调了人机交互（HCI）[LJJ*24] 与计算机图形学的交叉，在开发新型 DS-3DM 以允许用户充分传达其设计意图方面发挥着至关重要。

成为VIP会员查看完整内容