Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches - 专知论文

会员服务 ·

0

对抗 · 音乐 · 变分自编码 · 生成建模 · 长短期记忆网络 ·

Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches

翻译：巴赫风格符号音乐的生成建模：自回归、潜变量与对抗方法的比较研究

Dezhi Yu,Kyuil Lee,Yongkang Huang

from arxiv, 11 pages, 13 figures. All authors contributed equally

We study generative modeling of Bach-style symbolic piano music using a shared MIDI corpus and three model families: autoregressive LSTMs with attention, latent-variable models including recurrent VAEs and vector-quantized VAEs, and generative adversarial networks. We compare their ability to model polyphonic note sequences, learn useful latent representations, and generate stylistically coherent compositions. Our experiments show that the autoregressive LSTM with attention produces the most musically coherent samples, while vector quantization helps mitigate posterior collapse and yields more structured outputs than conventional recurrent VAEs. The adversarial approach captures local pitch patterns but remains difficult to train and generalizes less reliably to Bach's style. These results highlight the relative strengths and failure modes of autoregressive, latent-variable, and adversarial approaches for symbolic music generation.

翻译：我们基于共享的MIDI语料库和三种模型族，研究了巴赫风格符号钢琴音乐的生成建模：带注意力的自回归LSTM、包含循环VAE和向量量化VAE的潜变量模型，以及生成对抗网络。我们比较了它们在建模复调音符序列、学习有效潜在表示以及生成风格一致作品方面的能力。实验表明，带注意力的自回归LSTM能生成音乐连贯性最佳的样本；向量量化有助于缓解后验崩塌，且相比传统循环VAE能产生更具结构化的输出。对抗方法虽能捕捉局部音高模式，但训练困难且对巴赫风格的泛化可靠性不足。这些结果揭示了自回归、潜变量和对抗方法在符号音乐生成中的相对优势及失效模式。

0

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

【港科大博士论文】生成模型的统计和结构特性，338页pdf

【港科大博士论文】生成模型的统计和结构特性，338页pdf

专知会员服务

48+阅读 · 2022年12月20日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

英国杜伦大学「深度生成建模」大综述论文，21页pdf

英国杜伦大学「深度生成建模」大综述论文，21页pdf

专知会员服务

49+阅读 · 2021年3月16日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

弱辛Banach空间上的Maslov指标的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Kahler 曲面中特殊曲面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

Arxiv

0+阅读 · 6月10日

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

Arxiv

0+阅读 · 6月7日

Exploring LLMs for South Asian Music Understanding and Generation

Arxiv

0+阅读 · 6月3日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月31日

MERIT: Learning Disentangled Music Representations for Audio Similarity

Arxiv

0+阅读 · 5月26日

Genre Controlled Music Generation via Activation Steering

Arxiv

0+阅读 · 5月26日

Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

Arxiv

0+阅读 · 5月21日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

Arxiv

0+阅读 · 5月15日

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

变分自编码

长短期记忆网络

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

【港科大博士论文】生成模型的统计和结构特性，338页pdf

【港科大博士论文】生成模型的统计和结构特性，338页pdf

专知会员服务

48+阅读 · 2022年12月20日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

英国杜伦大学「深度生成建模」大综述论文，21页pdf

英国杜伦大学「深度生成建模」大综述论文，21页pdf

专知会员服务

49+阅读 · 2021年3月16日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

Arxiv

0+阅读 · 6月10日

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

Arxiv

0+阅读 · 6月7日

Exploring LLMs for South Asian Music Understanding and Generation

Arxiv

0+阅读 · 6月3日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月31日

MERIT: Learning Disentangled Music Representations for Audio Similarity

Arxiv

0+阅读 · 5月26日

Genre Controlled Music Generation via Activation Steering

Arxiv

0+阅读 · 5月26日

Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

Arxiv

0+阅读 · 5月21日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

Arxiv

0+阅读 · 5月15日

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Arxiv

0+阅读 · 5月14日

相关基金

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

弱辛Banach空间上的Maslov指标的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Kahler 曲面中特殊曲面的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员