Adaptable Symbolic Music Infilling with MIDI-RWKV - 专知论文

会员服务 ·

0

音乐 · 系统 · CVPR 2022 · 计算机辅助 · 端到端 ·

Adaptable Symbolic Music Infilling with MIDI-RWKV

翻译：基于MIDI-RWKV的可适应符号音乐填充

Christian Zhou-Zheng,Philippe Pasquier

from arxiv, 31 pages, 15 figures, 17 tables

Existing work in automatic music generation has mostly focused on end-to-end systems that generate either entire compositions or continuations of pieces, which are difficult for composers to iterate on. The area of computer-assisted composition, where generative models integrate into existing creative workflows, remains comparatively underexplored. In this study, we address the tasks of model style adaptation and multi-track, long-context, and controllable symbolic music infilling to enhance the process of computer-assisted composition. We present MIDI-RWKV, a small foundation model based on the RWKV-7 linear architecture, to enable efficient and coherent musical cocreation on edge devices. We also demonstrate that MIDI-RWKV admits an effective method of finetuning its initial state for style adaptation in the very-low-sample regime. We evaluate MIDI-RWKV and its state tuning on several quantitative and qualitative metrics with respect to existing models, and release model weights and code at https://github.com/christianazinn/MIDI-RWKV.

翻译：现有的自动音乐生成研究主要集中于端到端系统，这些系统要么生成完整的作品，要么生成乐曲的延续部分，这使得作曲者难以进行迭代修改。计算机辅助作曲领域——即生成模型融入现有创作流程的研究——相比之下仍探索不足。在本研究中，我们针对模型风格适应以及多轨、长上下文、可控的符号音乐填充任务展开研究，以增强计算机辅助作曲的流程。我们提出了MIDI-RWKV，这是一个基于RWKV-7线性架构的小型基础模型，旨在边缘设备上实现高效且连贯的音乐协同创作。我们还证明了MIDI-RWKV允许通过微调其初始状态，在极低样本条件下实现有效的风格适应。我们通过多项定量与定性指标，将MIDI-RWKV及其状态调优方法与现有模型进行比较评估，并在https://github.com/christianazinn/MIDI-RWKV发布了模型权重与代码。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

专知会员服务

20+阅读 · 2025年12月29日

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

32+阅读 · 2024年8月8日

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

专知会员服务

29+阅读 · 2023年11月11日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

带你动手搭建一个音乐推荐系统

带你动手搭建一个音乐推荐系统

机器学习与推荐算法

11+阅读 · 2020年7月14日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于序号调制的MIMO-OFDM系统容量增强技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

Evaluating Disentangled Representations for Controllable Music Generation

Arxiv

0+阅读 · 2月10日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

AI-Generated Music Detection in Broadcast Monitoring

Arxiv

0+阅读 · 2月6日

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Arxiv

0+阅读 · 2月5日

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

Arxiv

0+阅读 · 2月5日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

Pay (Cross) Attention to the Melody: Curriculum Masking for Single-Encoder Melodic Harmonization

Arxiv

0+阅读 · 1月22日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

计算机辅助

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

专知会员服务

20+阅读 · 2025年12月29日

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

32+阅读 · 2024年8月8日

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

【NeurIPS2023】跨模态提示：适应大型预训练模型用于音频-视觉下游任务

专知会员服务

29+阅读 · 2023年11月11日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

带你动手搭建一个音乐推荐系统

带你动手搭建一个音乐推荐系统

机器学习与推荐算法

11+阅读 · 2020年7月14日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

相关论文

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

Evaluating Disentangled Representations for Controllable Music Generation

Arxiv

0+阅读 · 2月10日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

AI-Generated Music Detection in Broadcast Monitoring

Arxiv

0+阅读 · 2月6日

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Arxiv

0+阅读 · 2月5日

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music

Arxiv

0+阅读 · 2月5日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

Pay (Cross) Attention to the Melody: Curriculum Masking for Single-Encoder Melodic Harmonization

Arxiv

0+阅读 · 1月22日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 1月17日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于序号调制的MIMO-OFDM系统容量增强技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员