MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation - 专知论文

会员服务 ·

0

音乐 · 连贯性 · 结构 · 结构化 · 表示 ·

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

翻译：MusicWeaver：具备作曲家风格结构化编辑与分钟级连贯性的音乐生成框架

Xuanchen Wang,Heng Wang,Weidong Cai

from arxiv, 9 pages, 4 figures

Recent advances in music generation produce impressive samples, however, practical creation still lacks two key capabilities: composer-style structural editing and minute-scale coherence. We present MusicWeaver, a framework for generating and editing long-range music using a human-interpretable intermediate representation with guaranteed edit locality. MusicWeaver decomposes generation into two stages: it first predicts a structured plan, a multi-level song program encoding musical attributes that composers can directly edit, and then renders audio conditioned on this plan. To ensure minute-scale coherence, we introduce a Global-Local Diffusion Transformer, where a global path captures long-range musical progression via compressed representations and memory, while a local path synthesizes fine-grained acoustic detail. We further propose a Motif Memory Retrieval module that enables consistent motif recurrence with controllable variation. For editing, we propose Projected Diffusion Inpainting, an inpainting method that denoises only user-specified regions and preserves unchanged content, allowing repeated edits without drift. Finally, we introduce Structure Coherence Score and Edit Fidelity Score to evaluate long-range form and edit realization. Experiments demonstrate that MusicWeaver achieves state-of-the-art fidelity, controllability, and long-range coherence.

翻译：近期音乐生成领域取得了显著进展，但实际创作仍缺乏两项关键能力：作曲家风格的结构化编辑与分钟级的连贯性。本文提出MusicWeaver框架，通过采用具备可保证编辑局部性的人类可解释中间表示，实现长篇幅音乐的生成与编辑。该框架将生成过程分解为两个阶段：首先预测结构化规划——一种编码音乐属性的多层次歌曲程序，作曲家可直接对其进行编辑；随后基于该规划渲染音频。为确保分钟级连贯性，我们提出全局-局部扩散Transformer架构：全局路径通过压缩表示与记忆模块捕捉长程音乐演进，局部路径则合成细粒度声学细节。进一步提出动机记忆检索模块，实现具有可控变奏的连贯动机再现。针对编辑任务，我们提出投影扩散修复方法，该方法仅对用户指定区域进行去噪并保持未修改内容不变，支持重复编辑而不产生偏移。最后，引入结构连贯性分数与编辑保真度分数，用于评估长程音乐形式与编辑实现效果。实验表明，MusicWeaver在保真度、可控性与长程连贯性方面均达到当前最优水平。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

带你动手搭建一个音乐推荐系统

带你动手搭建一个音乐推荐系统

机器学习与推荐算法

11+阅读 · 2020年7月14日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Arxiv

0+阅读 · 2月12日

Evaluating Disentangled Representations for Controllable Music Generation

Arxiv

0+阅读 · 2月10日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Arxiv

0+阅读 · 2月9日

Training-Efficient Text-to-Music Generation with State-Space Modeling

Arxiv

0+阅读 · 1月21日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

2+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

3+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

5+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

3+阅读 · 4月22日

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

4+阅读 · 4月22日

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 4月22日

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 4月22日

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

9+阅读 · 4月22日

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

8+阅读 · 4月22日

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

5+阅读 · 4月22日

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

5+阅读 · 4月22日

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

9+阅读 · 4月22日

相关VIP内容

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体系统：从经典范式到大基础模型驱动的未来

电子战革命：塑造战场的十年突破（2015–2025）

【CMU博士论文】物理世界的视觉感知与深度理解

伊朗战争停火期间美军关键弹药状况分析

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

带你动手搭建一个音乐推荐系统

带你动手搭建一个音乐推荐系统

机器学习与推荐算法

11+阅读 · 2020年7月14日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

相关论文

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Arxiv

0+阅读 · 2月19日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Arxiv

0+阅读 · 2月12日

Evaluating Disentangled Representations for Controllable Music Generation

Arxiv

0+阅读 · 2月10日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Arxiv

0+阅读 · 2月9日

Training-Efficient Text-to-Music Generation with State-Space Modeling

Arxiv

0+阅读 · 1月21日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 1月17日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员