Machine-generated music (MGM) has become a groundbreaking innovation with wide-ranging applications, such as music therapy, personalised editing, and creative inspiration within the music industry. However, the unregulated proliferation of MGM presents considerable challenges to the entertainment, education, and arts sectors by potentially undermining the value of high-quality human compositions. Consequently, MGM detection (MGMD) is crucial for preserving the integrity of these fields. Despite its significance, MGMD domain lacks comprehensive systematic evaluation results necessary to drive meaningful progress. To address this gap, we conduct experiments on existing large-scale datasets using a range of foundational models for audio processing, establishing systematic evaluation results tailored to the MGMD task. Our selection includes traditional machine learning models, deep neural networks, Transformer-based architectures, and State space models (SSM). Recognising the inherently multimodal nature of music, which integrates both melody and lyrics, we also explore fundamental multimodal models in our experiments. Beyond providing basic binary classification outcomes, we delve deeper into model behaviour using multiple explainable Artificial Intelligence (XAI) tools, offering insights into their decision-making processes. Our analysis reveals that ResNet18 performs the best according to in-domain and out-of-domain tests. By providing a comprehensive comparison of systematic evaluation results and their interpretability, we propose several directions to inspire future research to develop more robust and effective detection methods for MGM. We provide our codes and some samples on Github repository.


翻译:机器生成音乐作为一项突破性创新,已在音乐治疗、个性化编辑、创意灵感等音乐产业领域展现出广泛应用前景。然而,机器生成音乐的无序发展可能削弱高质量人类创作的价值,给娱乐、教育及艺术领域带来显著挑战。因此,机器生成音乐检测对于维护这些领域的完整性至关重要。尽管其意义重大,该领域目前仍缺乏推动实质性进展所需的系统性评估结果。为弥补这一空白,我们基于现有大规模数据集,采用多种音频处理基础模型开展实验,建立针对机器生成音乐检测任务的系统评估体系。所选模型涵盖传统机器学习模型、深度神经网络、基于Transformer的架构及状态空间模型。鉴于音乐本身融合旋律与歌词的多模态特性,我们在实验中也探索了基础多模态模型。除基础二分类结果外,我们运用多项可解释人工智能工具深入分析模型行为,揭示其决策机制。研究显示,ResNet18在域内与跨域测试中表现最优。通过系统评估结果及其可解释性的全面比较,我们提出若干发展方向,以激励未来研究构建更鲁棒高效的机器生成音乐检测方法。相关代码及部分样本已发布于GitHub仓库。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
《可控视频生成:综述》
专知会员服务
17+阅读 · 2025年7月24日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
《生成式人工智能模型:机遇与风险》
专知会员服务
78+阅读 · 2024年4月22日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
39+阅读 · 2024年4月19日
机器音译研究综述
专知会员服务
17+阅读 · 2022年10月16日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
带你动手搭建一个音乐推荐系统
机器学习与推荐算法
11+阅读 · 2020年7月14日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
《可控视频生成:综述》
专知会员服务
17+阅读 · 2025年7月24日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
《生成式人工智能模型:机遇与风险》
专知会员服务
78+阅读 · 2024年4月22日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
39+阅读 · 2024年4月19日
机器音译研究综述
专知会员服务
17+阅读 · 2022年10月16日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员