三维动作生成技术在诸多领域具有广泛的应用前景。然而,以往的研究多聚焦于简单场景下的动作生成,在面向实际应用时,其动作质量、多样性以及用户可操控性方面仍存在显著差距。本论文的核心目标是开发一种统一的三维动作生成模型,在生成多样化、高质量动作的同时,能够精准响应各类用户控制信号。为此,本研究从生成模型的应用、架构设计、推理阶段的采样策略以及全面动作数据集的构建四个关键维度出发,协同推动了动作生成算法的发展,并为构建高性能的动作生成基座模型 (Motion Generation Foundation Model) 奠定了基础。 首先,我们设计了首个基于扩散模型的动作生成框架 MotionDiffuse。相比于以往的动作生成模型,MotionDiffuse 具备三大核心优势: 1. 多样性 (Diversity): 得益于扩散模型强大的建模能力,MotionDiffuse 能够针对相同的文本输入生成丰富多样的动作; 1. 高逼真度 (High Realism): 通过精细的架构设计,模型能够更精准地捕捉动作序列间的帧间过渡,充分发挥扩散模型的建模潜力; 1. 高可操控性 (High Controllability): 我们在推理过程中引入了细粒度控制方法,实现了对不同身体部位及时间片段的精确控制。 在文本驱动 (Text-driven) 与动作类别条件 (Action-conditioned) 的动作生成任务上,MotionDiffuse 均达到了目前最优 (SOTA) 的性能。
其次,我们提出了检索增强的动作扩散模型 ReMoDiffuse。通过设计混合检索 (Hybrid Retrieval)、语义调制 Transformer (Semantic-Modulated Transformer) 以及条件混合 (Condition Mixture) 三大核心组件,我们有效地将传统动作生成算法中常用的检索技术集成到扩散模型中。这一改进进一步提升了 MotionDiffuse 的生成质量,尤其是在稀有动作类型上的表现尤为突出。 随后,我们提出了 FineMoGen 模型,该模型能够根据用户提供的细粒度文本描述生成高质量动作序列,并支持交互式的细粒度编辑。不同于 MotionDiffuse 在推理阶段引入控制,FineMoGen 从结构层面切入,通过融合空间独立性与时间独立性,使模型在训练阶段能更好地学习复杂描述与各身体部位及时间片段间的映射关系。此外,我们构建了大规模数据集 HuMManMoGen,包含 2,968 个视频及 102,336 条细粒度的时空描述。实验表明,FineMoGen 的建模方案优于 MotionDiffuse 的采样策略及其他同期工作。 最后,我们进一步扩展了动作生成模型的规模,提出了大动作模型 (Large Motion Model, LMM)。LMM 能够同时处理多项任务,并接受包括文本、语音、音乐、视频、上下文等在内的多种控制信号,提供了更灵活多样的交互形式。我们从三个维度构建了该系统: 1. 数据层面: 汇总了学术界常用的 16 个数据集,构建了全面的基准测试集 MotionVerse; 1. 模型架构: 在前期工作基础上进行升级,使其具备处理多模态、多任务的能力; 1. 训练策略: 针对不同生成任务的共性与特性,设计了相应的训练流程与数据增强策略。 该模型在 9 项主流动作生成任务中均取得了与单专家模型 (Single-expert models) 相当或更优的水平。
综上所述,本论文在动作生成模型的开发方面具有开创性意义,解决了算法设计与数据采集中的关键挑战。通过采用先进的生成模型、严谨的结构设计、丰富的推理采样策略以及全面基准数据集的构建,本研究不仅显著提升了单项任务的性能,更引领动作生成领域步入了多模态大基座模型的新时代。