三维动作生成技术在诸多领域具有广泛的应用前景。然而,以往的研究多聚焦于简单场景下的动作生成,在面向实际应用时,其动作质量、多样性以及用户可操控性方面仍存在显著差距。本论文的核心目标是开发一种统一的三维动作生成模型,在生成多样化、高质量动作的同时,能够精准响应各类用户控制信号。为此,本研究从生成模型的应用、架构设计、推理阶段的采样策略以及全面动作数据集的构建四个关键维度出发,协同推动了动作生成算法的发展,并为构建高性能的动作生成基座模型 (Motion Generation Foundation Model) 奠定了基础。 首先,我们设计了首个基于扩散模型的动作生成框架 MotionDiffuse。相比于以往的动作生成模型,MotionDiffuse 具备三大核心优势: 1. 多样性 (Diversity): 得益于扩散模型强大的建模能力,MotionDiffuse 能够针对相同的文本输入生成丰富多样的动作; 1. 高逼真度 (High Realism): 通过精细的架构设计,模型能够更精准地捕捉动作序列间的帧间过渡,充分发挥扩散模型的建模潜力; 1. 高可操控性 (High Controllability): 我们在推理过程中引入了细粒度控制方法,实现了对不同身体部位及时间片段的精确控制。 在文本驱动 (Text-driven) 与动作类别条件 (Action-conditioned) 的动作生成任务上,MotionDiffuse 均达到了目前最优 (SOTA) 的性能。

其次,我们提出了检索增强的动作扩散模型 ReMoDiffuse。通过设计混合检索 (Hybrid Retrieval)、语义调制 Transformer (Semantic-Modulated Transformer) 以及条件混合 (Condition Mixture) 三大核心组件,我们有效地将传统动作生成算法中常用的检索技术集成到扩散模型中。这一改进进一步提升了 MotionDiffuse 的生成质量,尤其是在稀有动作类型上的表现尤为突出。 随后,我们提出了 FineMoGen 模型,该模型能够根据用户提供的细粒度文本描述生成高质量动作序列,并支持交互式的细粒度编辑。不同于 MotionDiffuse 在推理阶段引入控制,FineMoGen 从结构层面切入,通过融合空间独立性时间独立性,使模型在训练阶段能更好地学习复杂描述与各身体部位及时间片段间的映射关系。此外,我们构建了大规模数据集 HuMManMoGen,包含 2,968 个视频及 102,336 条细粒度的时空描述。实验表明,FineMoGen 的建模方案优于 MotionDiffuse 的采样策略及其他同期工作。 最后,我们进一步扩展了动作生成模型的规模,提出了大动作模型 (Large Motion Model, LMM)。LMM 能够同时处理多项任务,并接受包括文本、语音、音乐、视频、上下文等在内的多种控制信号,提供了更灵活多样的交互形式。我们从三个维度构建了该系统: 1. 数据层面: 汇总了学术界常用的 16 个数据集,构建了全面的基准测试集 MotionVerse; 1. 模型架构: 在前期工作基础上进行升级,使其具备处理多模态、多任务的能力; 1. 训练策略: 针对不同生成任务的共性与特性,设计了相应的训练流程与数据增强策略。 该模型在 9 项主流动作生成任务中均取得了与单专家模型 (Single-expert models) 相当或更优的水平。

综上所述,本论文在动作生成模型的开发方面具有开创性意义,解决了算法设计与数据采集中的关键挑战。通过采用先进的生成模型、严谨的结构设计、丰富的推理采样策略以及全面基准数据集的构建,本研究不仅显著提升了单项任务的性能,更引领动作生成领域步入了多模态大基座模型的新时代。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
15+阅读 · 2025年1月21日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
【NTU博士论文】基于深度学习的图像与视频生成,146页pdf
CVPR 2020 论文大盘点-动作检测与动作分割篇
计算机视觉life
12+阅读 · 2020年7月27日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
【NTU博士论文】3D人体动作生成
专知会员服务
1+阅读 · 今天14:48
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
7+阅读 · 今天8:46
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
9+阅读 · 今天5:37
《多域作战面临复杂现实》
专知会员服务
7+阅读 · 今天5:35
《印度的多域作战:条令与能力发展》报告
专知会员服务
3+阅读 · 今天5:24
相关VIP内容
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
15+阅读 · 2025年1月21日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
【NTU博士论文】基于深度学习的图像与视频生成,146页pdf
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员