Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music - 专知论文

会员服务 ·

0

音乐 · 数据集 · 生成模型 · Gen · 大规模数据 ·

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

翻译：波斯音乐Gen：面向波斯音乐的大规模数据集与文化感知生成模型

Mohammad Hossein Sameti,Diba Hadi Esfangereh,Sepehr Harfi Moridani,Leili Javidpour,Mahdieh Soleymani Baghshah

from arxiv, 9 pages, 2 figures, 3 tables

Persian music, with its unique tonalities, modal systems (Dastgah), and rhythmic structures, presents significant challenges for music generation models trained primarily on Western music. We address this gap by curating the first large-scale dataset of Persian songs, comprising over 900 hours high-quality audio samples across diverse sub-genres, including pop, traditional, and contemporary styles. This dataset captures the rich melodic and cultural diversity of Persian music and serves as the foundation for fine-tuning MusicGen, a state-of-the-art generative music model. We adapt MusicGen to this domain and evaluate its performance by utilizing subjective and objective metrics. To assess the semantic alignment between generated music and intended style tags, we report the proportion of relevant tags accurately reflected in the generated outputs. Our results demonstrate that the fine-tuned model produces compositions that more align with Persian stylistic conventions. This work introduces a new resource for generative music research and illustrates the adaptability of music generation models to underrepresented cultural and linguistic contexts.

翻译：波斯音乐以其独特的音调体系、调式系统（达斯特加赫）和节奏结构，给主要基于西方音乐训练的音乐生成模型带来了显著挑战。为填补这一空白，我们构建了首个大规模波斯歌曲数据集，涵盖包括流行、传统及当代风格在内的多样化子流派，包含超过900小时的高质量音频样本。该数据集捕捉了波斯音乐丰富的旋律与文化多样性，并为微调当前最先进的生成式音乐模型MusicGen奠定了基础。我们通过主观与客观指标对MusicGen在该领域的适应性进行评估，并验证其性能。为评估生成音乐与预期风格标签之间的语义对齐程度，我们计算了生成输出中准确反映相关标签的比例。结果表明，微调后的模型能生成更符合波斯风格常规的作品。本研究为生成式音乐研究提供了新资源，并展示了音乐生成模型在代表性不足的文化与语言语境中的适应能力。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

音视频大数据基础模型全面综述

音视频大数据基础模型全面综述

专知会员服务

9+阅读 · 5月7日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

VAE、GAN、Info-GAN：全解深度学习三大生成模型

VAE、GAN、Info-GAN：全解深度学习三大生成模型

数据派THU

20+阅读 · 2017年9月23日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

连续太赫兹波数字全息生物样品成像方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

民族传统聚落文化与生态基因信息图谱建模及应用研究 ----以湘黔桂省际边界侗族旅游村寨为例

国家自然科学基金

0+阅读 · 2014年12月31日

Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches

Arxiv

0+阅读 · 6月12日

Optical Music Recognition for Real-World Manuscripts with Synthetic Data

Arxiv

0+阅读 · 6月8日

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Arxiv

0+阅读 · 6月5日

Exploring LLMs for South Asian Music Understanding and Generation

Arxiv

0+阅读 · 6月3日

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

Arxiv

0+阅读 · 6月2日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月26日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 5月25日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

大规模数据

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

11+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

7+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

音视频大数据基础模型全面综述

音视频大数据基础模型全面综述

专知会员服务

9+阅读 · 5月7日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

不可错过！CMU最新《生成式人工智能大模型》课程：从文本、图像到多模态大模型

专知会员服务

58+阅读 · 2024年9月29日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

VAE、GAN、Info-GAN：全解深度学习三大生成模型

VAE、GAN、Info-GAN：全解深度学习三大生成模型

数据派THU

20+阅读 · 2017年9月23日

相关论文

Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches

Arxiv

0+阅读 · 6月12日

Optical Music Recognition for Real-World Manuscripts with Synthetic Data

Arxiv

0+阅读 · 6月8日

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Arxiv

0+阅读 · 6月5日

Exploring LLMs for South Asian Music Understanding and Generation

Arxiv

0+阅读 · 6月3日

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

Arxiv

0+阅读 · 6月2日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月26日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 5月25日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval

Arxiv

0+阅读 · 5月14日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

连续太赫兹波数字全息生物样品成像方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

民族传统聚落文化与生态基因信息图谱建模及应用研究 ----以湘黔桂省际边界侗族旅游村寨为例

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员