Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode - 专知论文

会员服务 ·

0

结构 · 提取 · 结构化 · 解码 · 音乐 ·

Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode

翻译：Etude：基于提取、结构化和解码三阶段方法的钢琴翻奏生成

Tse-Yang Chen,Yuh-Jzer Joung

Piano cover generation aims to automatically transform a pop song into a piano arrangement. While numerous deep learning approaches have been proposed, existing models often fail to maintain structural consistency with the original song, likely due to the absence of beat-aware mechanisms or the difficulty of modeling complex rhythmic patterns. Rhythmic information is crucial, as it defines structural similarity (e.g., tempo, BPM) and directly impacts the overall quality of the generated music. In this paper, we introduce Etude, a three-stage architecture consisting of Extract, strucTUralize, and DEcode stages. By pre-extracting rhythmic information and applying a novel, simplified REMI-based tokenization, our model produces covers that preserve proper song structure, enhance fluency and musical dynamics, and support highly controllable generation through style injection. Subjective evaluations with human listeners show that Etude substantially outperforms prior models, achieving a quality level comparable to that of human composers.

翻译：钢琴翻奏生成旨在将流行歌曲自动转化为钢琴编排。尽管已有大量深度学习方法被提出，但现有模型往往难以保持与原始歌曲的结构一致性，这可能是由于缺乏节拍感知机制或难以建模复杂节奏模式所致。节奏信息至关重要，它定义了结构相似性（如速度、BPM）并直接影响生成音乐的整体质量。本文提出Etude——一个由提取、结构化和解码三个阶段组成的架构。通过预先提取节奏信息并应用新颖的简化REMI标记化方法，我们的模型能够生成保持正确歌曲结构、提升流畅性与音乐动态性，并通过风格注入支持高度可控生成的翻奏作品。人工听众的主观评估表明，Etude显著优于现有模型，其生成质量已达到与人类作曲家相当的水平。

0

相关内容

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

专知

14+阅读 · 2022年1月13日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

用于反演自然生物关节结构及力学性能的柔性机构设计理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

Structure-Aware Piano Accompaniment via Style Planning and Dataset-Aligned Pattern Retrieval

Arxiv

0+阅读 · 2月16日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 2月3日

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network

Arxiv

0+阅读 · 2月3日

D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation From Lead sheet

Arxiv

0+阅读 · 2月3日

VioPTT: Violin Technique-Aware Transcription from Synthetic Data Augmentation

Arxiv

0+阅读 · 2月3日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

Arxiv

0+阅读 · 1月29日

Research on Piano Timbre Transformation System Based on Diffusion Model

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

6+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

6+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

12+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

专知

14+阅读 · 2022年1月13日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

从动力学角度看优化算法：GAN的第三个阶段

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Arxiv

0+阅读 · 2月19日

Structure-Aware Piano Accompaniment via Style Planning and Dataset-Aligned Pattern Retrieval

Arxiv

0+阅读 · 2月16日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

VidTune: Creating Video Soundtracks with Generative Music and Contextual Thumbnails

Arxiv

0+阅读 · 2月3日

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-task Multi-Scale Network

Arxiv

0+阅读 · 2月3日

D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation From Lead sheet

Arxiv

0+阅读 · 2月3日

VioPTT: Violin Technique-Aware Transcription from Synthetic Data Augmentation

Arxiv

0+阅读 · 2月3日

MusicWeaver: Composer-Style Structural Editing and Minute-Scale Coherent Music Generation

Arxiv

0+阅读 · 1月29日

MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

Arxiv

0+阅读 · 1月29日

Research on Piano Timbre Transformation System Based on Diffusion Model

Arxiv

0+阅读 · 1月14日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

用于反演自然生物关节结构及力学性能的柔性机构设计理论与方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员