3D conducting motion generation aims to synthesize fine-grained conductor motions from music, with broad potential in music education, virtual performance, digital human animation, and human-AI co-creation. However, this task remains underexplored due to two major challenges: (1) the lack of large-scale fine-grained 3D conducting datasets and (2) the absence of effective methods that can jointly support long-sequence generation with high quality and efficiency. To address the data limitation, we develop a quality-oriented 3D conducting motion collection pipeline and construct CM-Data, a fine-grained SMPL-X dataset with about 10 hours of conducting motion data. To the best of our knowledge, CM-Data is the first and largest public dataset for 3D conducting motion generation. To address the methodological limitation, we propose BiTDiff, a novel framework for 3D conducting motion generation, built upon a BiMamba-Transformer hybrid model architecture for efficient long-sequence modeling and a Diffusion-based generative strategy with human-kinematic decomposition for high-quality motion synthesis. Specifically, BiTDiff introduces auxiliary physical-consistency losses and a hand-/body-specific forward-kinematics design for better fine-grained motion modeling, while leveraging BiMamba for memory-efficient long-sequence temporal modeling and Transformer for cross-modal semantic alignment. In addition, BiTDiff supports training-free joint-level motion editing, enabling downstream human-AI interaction design. Extensive quantitative and qualitative experiments demonstrate that BiTDiff achieves state-of-the-art (SOTA) performance for 3D conducting motion generation on the CM-Data dataset. Code will be available upon acceptance.


翻译:三维指挥动作生成旨在从音乐中合成细粒度的指挥者动作,在音乐教育、虚拟表演、数字人动画及人机共创领域具有广阔潜力。然而,该任务因两大挑战尚未得到充分探索:(1)缺乏大规模细粒度三维指挥数据集,(2)缺乏能够同时支持长序列高质量高效生成的有效方法。为应对数据限制,我们开发了面向质量的三维指挥动作采集流程,并构建了CM-Data——包含约10小时指挥动作数据的细粒度SMPL-X数据集。据我们所知,CM-Data是首个且最大的面向三维指挥动作生成的公开数据集。为应对方法局限,我们提出BiTDiff——一个基于BiMamba-Transformer混合模型架构的三维指挥动作生成新框架,该框架通过高效长序列建模与基于人体运动学分解的扩散生成策略实现高质量动作合成。具体而言,BiTDiff引入辅助物理一致性损失及手/身体特定正向运动学设计以增强细粒度动作建模,同时利用BiMamba实现内存高效的长序列时序建模,并通过Transformer实现跨模态语义对齐。此外,BiTDiff支持免训练的关节级动作编辑,可赋能下游人机交互设计。大量定量与定性实验表明,BiTDiff在CM-Data数据集上实现了三维指挥动作生成的最新性能。代码将在论文接收后公开。

0
下载
关闭预览

相关内容

【NTU博士论文】3D人体动作生成
专知会员服务
12+阅读 · 4月24日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
基于思维模拟的虚拟指挥员作战决策模型
专知会员服务
48+阅读 · 2025年3月9日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员