Music generative artificial intelligence (AI) is rapidly expanding music content, necessitating automated song aesthetics evaluation. However, existing studies largely focus on speech, audio or singing quality, leaving song aesthetics underexplored. Moreover, conventional approaches often predict a precise Mean Opinion Score (MOS) value directly, which struggles to capture the nuances of human perception in song aesthetics evaluation. This paper proposes a song-oriented aesthetics evaluation framework, featuring two novel modules: 1) Multi-Stem Attention Fusion (MSAF) builds bidirectional cross-attention between mixture-vocal and mixture-accompaniment pairs, fusing them to capture complex musical features; 2) Hierarchical Granularity-Aware Interval Aggregation (HiGIA) learns multi-granularity score probability distributions, aggregates them into a score interval, and applies a regression within the interval to produce the final score. We evaluated on two datasets of full-length songs: SongEval dataset (AI-generated) and an internal aesthetics dataset (human-created), and compared with two state-of-the-art (SOTA) models. Results show that the proposed method achieves stronger performance for multi-dimensional song aesthetics evaluation.


翻译:音乐生成人工智能(AI)正在迅速扩展音乐内容,这使得自动化的歌曲美学评价成为必要。然而,现有研究主要集中在语音、音频或演唱质量上,对歌曲美学的探索尚不充分。此外,传统方法通常直接预测一个精确的平均意见得分(MOS)值,这难以捕捉人类在歌曲美学评价中感知的细微差别。本文提出了一种面向歌曲的美学评价框架,包含两个新颖的模块:1)多声部注意力融合(MSAF)在人声-伴奏混合对之间建立双向交叉注意力,融合它们以捕捉复杂的音乐特征;2)分层粒度感知区间聚合(HiGIA)学习多粒度得分概率分布,将其聚合为一个得分区间,并在区间内应用回归以产生最终得分。我们在两个全长歌曲数据集上进行了评估:SongEval数据集(AI生成)和一个内部美学数据集(人工创作),并与两个最先进的(SOTA)模型进行了比较。结果表明,所提出的方法在多维歌曲美学评价中实现了更强的性能。

0
下载
关闭预览

相关内容

文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
专家报告 | 个性化图像美学评价
中国图象图形学报
14+阅读 · 2020年7月15日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
专家报告 | 个性化图像美学评价
中国图象图形学报
14+阅读 · 2020年7月15日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员