Machine-generated music (MGM) has emerged as a powerful tool with applications in music therapy, personalised editing, and creative inspiration for the music community. However, its unregulated use threatens the entertainment, education, and arts sectors by diminishing the value of high-quality human compositions. Detecting machine-generated music (MGMD) is, therefore, critical to safeguarding these domains, yet the field lacks comprehensive datasets to support meaningful progress. To address this gap, we introduce \textbf{M6}, a large-scale benchmark dataset tailored for MGMD research. M6 is distinguished by its diversity, encompassing multiple generators, domains, languages, cultural contexts, genres, and instruments. We outline our methodology for data selection and collection, accompanied by detailed data analysis, providing all WAV form of music. Additionally, we provide baseline performance scores using foundational binary classification models, illustrating the complexity of MGMD and the significant room for improvement. By offering a robust and multifaceted resource, we aim to empower future research to develop more effective detection methods for MGM. We believe M6 will serve as a critical step toward addressing this societal challenge. The dataset and code will be freely available to support open collaboration and innovation in this field.


翻译:机器生成音乐(MGM)已成为一种强大的工具,在音乐治疗、个性化编辑及音乐创作灵感激发等领域展现出广泛应用前景。然而,其无监管使用可能通过削弱高质量人类创作作品的价值,对娱乐、教育和艺术领域构成威胁。因此,检测机器生成音乐(MGMD)对于保护这些领域至关重要,但该领域目前缺乏支持实质性进展的综合性数据集。为填补这一空白,我们推出了专为MGMD研究设计的大规模基准数据集——**M6**。M6以其多样性为显著特征,涵盖多生成器、多领域、多语言与文化背景、多流派及多乐器。我们阐述了数据选择与收集的方法论,并辅以详细的数据分析,同时提供了所有音乐的WAV格式文件。此外,我们利用基础二分类模型提供了基线性能分数,揭示了MGMD任务的复杂性及巨大的改进空间。通过提供这一稳健且多层面的资源,我们旨在赋能未来研究,以开发更有效的MGM检测方法。我们相信M6将成为应对这一社会挑战的关键一步。数据集与代码将公开提供,以支持该领域的开放协作与创新。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
CMU最新《生成式人工智能》课程,涵盖大模型最新技术
专知会员服务
101+阅读 · 2024年4月4日
带你动手搭建一个音乐推荐系统
机器学习与推荐算法
11+阅读 · 2020年7月14日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
CMU最新《生成式人工智能》课程,涵盖大模型最新技术
专知会员服务
101+阅读 · 2024年4月4日
相关资讯
带你动手搭建一个音乐推荐系统
机器学习与推荐算法
11+阅读 · 2020年7月14日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员