DARC：具有细粒度节奏控制的鼓伴奏生成 (DARC: Drum accompaniment generation with fine-grained rhythm control) - 专知论文

会员服务 ·

0

音乐 · 细粒度 · 粒度 · 上下文 · 工具 ·

DARC: Drum accompaniment generation with fine-grained rhythm control

翻译：DARC：具有细粒度节奏控制的鼓伴奏生成

In music creation, rapid prototyping is essential for exploring and refining ideas, yet existing generative tools often fall short when users require both structural control and stylistic flexibility. Prior approaches in stem-to-stem generation can condition on other musical stems but offer limited control over rhythm, and timbre-transfer methods allow users to specify specific rhythms, but cannot condition on musical context. We introduce DARC, a generative drum accompaniment model that conditions both on musical context from other stems and explicit rhythm prompts such as beatboxing or tapping tracks. Using parameter-efficient fine-tuning, we augment STAGE, a state-of-the-art drum stem generator, with fine-grained rhythm control while maintaining musical context awareness.

翻译：在音乐创作中，快速原型制作对于探索和完善创意至关重要，然而现有的生成工具在用户同时需要结构控制和风格灵活性时往往表现不足。先前的音轨到音轨生成方法能够以其他音乐音轨为条件，但对节奏的控制有限；音色转换方法允许用户指定特定节奏，却无法以音乐上下文为条件。本文提出DARC，一种生成式鼓伴奏模型，它同时以其他音轨的音乐上下文和明确的节奏提示（如节奏口技或敲击音轨）为条件。通过参数高效微调，我们在保持音乐上下文感知能力的同时，为最先进的鼓音轨生成模型STAGE增强了细粒度节奏控制功能。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【博士论文】深度生成表示学习

【博士论文】深度生成表示学习

专知会员服务

35+阅读 · 2025年1月13日

【斯坦福博士论文】可控生成与编辑的三维神经表示，

【斯坦福博士论文】可控生成与编辑的三维神经表示，

专知会员服务

20+阅读 · 2024年12月8日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

专知会员服务

74+阅读 · 2024年3月24日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

频率型陀螺谐振子的参数激励振动特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

不确定性飞行环境中动态激波控制鼓包减阻机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

超快激光打印结合毛细力驱动的可调谐功能结构自组装及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Audio ControlNet for Fine-Grained Audio Generation and Editing

Arxiv

0+阅读 · 2月4日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 2月3日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

Adaptable Symbolic Music Infilling with MIDI-RWKV

Arxiv

0+阅读 · 1月26日

Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode

Arxiv

0+阅读 · 1月23日

Supervised Learning for Game Music Segmentation

Arxiv

0+阅读 · 1月19日

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control

Arxiv

0+阅读 · 1月12日

AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models

Arxiv

0+阅读 · 1月9日

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control

Arxiv

0+阅读 · 1月7日

Generating Piano Music with Transformers: A Comparative Study of Scale, Data, and Metrics

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【博士论文】深度生成表示学习

【博士论文】深度生成表示学习

专知会员服务

35+阅读 · 2025年1月13日

【斯坦福博士论文】可控生成与编辑的三维神经表示，

【斯坦福博士论文】可控生成与编辑的三维神经表示，

专知会员服务

20+阅读 · 2024年12月8日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

【新书】提示工程快速指南：适用于 ChatGPT、Bard、Dall-E 和 Midjourney 的生成式AI技巧和窍门

专知会员服务

74+阅读 · 2024年3月24日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关论文

Audio ControlNet for Fine-Grained Audio Generation and Editing

Arxiv

0+阅读 · 2月4日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 2月3日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

Adaptable Symbolic Music Infilling with MIDI-RWKV

Arxiv

0+阅读 · 1月26日

Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode

Arxiv

0+阅读 · 1月23日

Supervised Learning for Game Music Segmentation

Arxiv

0+阅读 · 1月19日

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control

Arxiv

0+阅读 · 1月12日

AttriCtrl: Fine-Grained Control of Aesthetic Attribute Intensity in Diffusion Models

Arxiv

0+阅读 · 1月9日

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control

Arxiv

0+阅读 · 1月7日

Generating Piano Music with Transformers: A Comparative Study of Scale, Data, and Metrics

Arxiv

0+阅读 · 1月4日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

频率型陀螺谐振子的参数激励振动特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

不确定性飞行环境中动态激波控制鼓包减阻机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

超快激光打印结合毛细力驱动的可调谐功能结构自组装及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

准粒子的量子控制及其在量子信息处理中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员