MEGADance: Mixture-of-Experts Architecture for Genre-Aware 3D Dance Generation - 专知论文

会员服务 ·

0

混合 · 音乐 · 混合架构 · 潜在 · 表示 ·

MEGADance: Mixture-of-Experts Architecture for Genre-Aware 3D Dance Generation

翻译：MEGADance：面向流派感知三维舞蹈生成的专家混合架构

Kaixing Yang,Xulong Tang,Ziqiao Peng,Yuxuan Hu,Jun He,Hongyan Liu

from arxiv, NeurIPS 2025

Music-driven 3D dance generation has attracted increasing attention in recent years, with promising applications in choreography, virtual reality, and creative content creation. Previous research has generated promising realistic dance movement from audio signals. However, traditional methods underutilize genre conditioning, often treating it as auxiliary modifiers rather than core semantic drivers. This oversight compromises music-motion synchronization and disrupts dance genre continuity, particularly during complex rhythmic transitions, thereby leading to visually unsatisfactory effects. To address the challenge, we propose MEGADance, a novel architecture for music-driven 3D dance generation. By decoupling choreographic consistency into dance generality and genre specificity, MEGADance demonstrates significant dance quality and strong genre controllability. It consists of two stages: (1) High-Fidelity Dance Quantization Stage (HFDQ), which encodes dance motions into a latent representation by Finite Scalar Quantization (FSQ) and reconstructs them with kinematic-dynamic constraints, and (2) Genre-Aware Dance Generation Stage (GADG), which maps music into the latent representation by synergistic utilization of Mixture-of-Experts (MoE) mechanism with Mamba-Transformer hybrid backbone. Extensive experiments on the FineDance and AIST++ dataset demonstrate the state-of-the-art performance of MEGADance both qualitatively and quantitatively. Code is available at https://github.com/XulongT/MEGADance.

翻译：近年来，音乐驱动的三维舞蹈生成吸引了越来越多的关注，在编舞、虚拟现实和创意内容创作等领域展现出广阔的应用前景。先前的研究已能从音频信号中生成具有真实感的舞蹈动作。然而，传统方法未能充分利用流派条件信息，往往将其视为辅助修饰而非核心语义驱动。这种疏忽损害了音乐与动作的同步性，并破坏了舞蹈流派的连贯性，尤其是在复杂的节奏转换过程中，从而导致视觉效果不尽如人意。为应对这一挑战，我们提出了MEGADance，一种用于音乐驱动三维舞蹈生成的新型架构。通过将编舞一致性解耦为舞蹈通用性与流派特异性，MEGADance展现出卓越的舞蹈生成质量和强大的流派可控性。它包含两个阶段：(1) 高保真舞蹈量化阶段，通过有限标量量化将舞蹈动作编码为潜在表示，并在运动学-动力学约束下进行重建；(2) 流派感知舞蹈生成阶段，通过协同利用专家混合机制与Mamba-Transformer混合主干网络，将音乐映射到该潜在表示。在FineDance和AIST++数据集上进行的大量实验表明，MEGADance在定性和定量评估上均达到了最先进的性能。代码发布于 https://github.com/XulongT/MEGADance。

0

相关内容

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

24+阅读 · 2025年8月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

不可错过！华盛顿大学最新《生成式模型》课程，附PPT

不可错过！华盛顿大学最新《生成式模型》课程，附PPT

专知会员服务

65+阅读 · 2020年12月11日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【数字孪生】面向智能制造的数字孪生

【数字孪生】面向智能制造的数字孪生

产业智能官

52+阅读 · 2020年5月10日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

你跳宅舞的样子很专业：不，这都是AI合成的结果

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Arxiv

0+阅读 · 3月9日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration

Arxiv

0+阅读 · 2月25日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

Skeleton2Stage: Reward-Guided Fine-Tuning for Physically Plausible Dance Generation

Arxiv

0+阅读 · 2月14日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Controllable Dance Generation with Style-Guided Motion Diffusion

Arxiv

0+阅读 · 2月10日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

9+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

6+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

12+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

6+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

8+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

4+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

6+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

11+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

11+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

3+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

6+阅读 · 4月18日

相关VIP内容

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

24+阅读 · 2025年8月26日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

不可错过！华盛顿大学最新《生成式模型》课程，附PPT

不可错过！华盛顿大学最新《生成式模型》课程，附PPT

专知会员服务

65+阅读 · 2020年12月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【数字孪生】面向智能制造的数字孪生

【数字孪生】面向智能制造的数字孪生

产业智能官

52+阅读 · 2020年5月10日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

你跳宅舞的样子很专业：不，这都是AI合成的结果

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

相关论文

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Arxiv

0+阅读 · 3月9日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration

Arxiv

0+阅读 · 2月25日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

Skeleton2Stage: Reward-Guided Fine-Tuning for Physically Plausible Dance Generation

Arxiv

0+阅读 · 2月14日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Controllable Dance Generation with Style-Guided Motion Diffusion

Arxiv

0+阅读 · 2月10日

相关基金

基于单目RGB/RGBD相机的身体运动和面部运动同步捕获方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

烙画艺术模拟及其数字合成技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员