Song Aesthetics Evaluation with Multi-Stem Attention and Hierarchical Uncertainty Modeling - 专知论文

会员服务 ·

0

评价 · 得分 · 分层 · 音乐 · 数据集 ·

Song Aesthetics Evaluation with Multi-Stem Attention and Hierarchical Uncertainty Modeling

翻译：基于多声部注意力与分层不确定性建模的歌曲美学评价

Yishan Lv,Jing Luo,Boyuan Ju,Yang Zhang,Xinda Wu,Bo Yuan,Xinyu Yang

Music generative artificial intelligence (AI) is rapidly expanding music content, necessitating automated song aesthetics evaluation. However, existing studies largely focus on speech, audio or singing quality, leaving song aesthetics underexplored. Moreover, conventional approaches often predict a precise Mean Opinion Score (MOS) value directly, which struggles to capture the nuances of human perception in song aesthetics evaluation. This paper proposes a song-oriented aesthetics evaluation framework, featuring two novel modules: 1) Multi-Stem Attention Fusion (MSAF) builds bidirectional cross-attention between mixture-vocal and mixture-accompaniment pairs, fusing them to capture complex musical features; 2) Hierarchical Granularity-Aware Interval Aggregation (HiGIA) learns multi-granularity score probability distributions, aggregates them into a score interval, and applies a regression within the interval to produce the final score. We evaluated on two datasets of full-length songs: SongEval dataset (AI-generated) and an internal aesthetics dataset (human-created), and compared with two state-of-the-art (SOTA) models. Results show that the proposed method achieves stronger performance for multi-dimensional song aesthetics evaluation.

翻译：音乐生成人工智能（AI）正在迅速扩展音乐内容，这使得自动化的歌曲美学评价成为必要。然而，现有研究主要集中在语音、音频或演唱质量上，对歌曲美学的探索尚不充分。此外，传统方法通常直接预测一个精确的平均意见得分（MOS）值，这难以捕捉人类在歌曲美学评价中感知的细微差别。本文提出了一种面向歌曲的美学评价框架，包含两个新颖的模块：1）多声部注意力融合（MSAF）在人声-伴奏混合对之间建立双向交叉注意力，融合它们以捕捉复杂的音乐特征；2）分层粒度感知区间聚合（HiGIA）学习多粒度得分概率分布，将其聚合为一个得分区间，并在区间内应用回归以产生最终得分。我们在两个全长歌曲数据集上进行了评估：SongEval数据集（AI生成）和一个内部美学数据集（人工创作），并与两个最先进的（SOTA）模型进行了比较。结果表明，所提出的方法在多维歌曲美学评价中实现了更强的性能。

0

相关内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

专家报告 | 个性化图像美学评价

专家报告 | 个性化图像美学评价

中国图象图形学报

14+阅读 · 2020年7月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

AI科技评论

11+阅读 · 2017年12月19日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

不同尺度下木材构造美学元素的数字化提取与视觉评价

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

Arxiv

0+阅读 · 1月29日

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

Arxiv

0+阅读 · 1月29日

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation

Arxiv

0+阅读 · 1月27日

UrgentMOS: Unified Multi-Metric and Preference Learning for Robust Speech Quality Assessment

Arxiv

0+阅读 · 1月26日

SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment

Arxiv

0+阅读 · 1月25日

Synthetic Singers: A Review of Deep-Learning-based Singing Voice Synthesis Approaches

Arxiv

0+阅读 · 1月20日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

A Survey on 30+ Years of Automatic Singing Assessment and Singing Information Processing

Arxiv

0+阅读 · 1月17日

MuseAgent-1: Interactive Grounded Multimodal Understanding of Music Scores and Performance Audio

Arxiv

0+阅读 · 1月17日

Audio Generation Through Score-Based Generative Modeling: Design Principles and Implementation

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

【ACM Multimedia2021教程】人工智能作曲教程，79页ppt，微软亚研谭旭等主讲

专知会员服务

28+阅读 · 2021年10月28日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

专家报告 | 个性化图像美学评价

专家报告 | 个性化图像美学评价

中国图象图形学报

14+阅读 · 2020年7月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

AI科技评论

11+阅读 · 2017年12月19日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

Arxiv

0+阅读 · 1月29日

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

Arxiv

0+阅读 · 1月29日

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation

Arxiv

0+阅读 · 1月27日

UrgentMOS: Unified Multi-Metric and Preference Learning for Robust Speech Quality Assessment

Arxiv

0+阅读 · 1月26日

SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment

Arxiv

0+阅读 · 1月25日

Synthetic Singers: A Review of Deep-Learning-based Singing Voice Synthesis Approaches

Arxiv

0+阅读 · 1月20日

Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection

Arxiv

0+阅读 · 1月20日

A Survey on 30+ Years of Automatic Singing Assessment and Singing Information Processing

Arxiv

0+阅读 · 1月17日

MuseAgent-1: Interactive Grounded Multimodal Understanding of Music Scores and Performance Audio

Arxiv

0+阅读 · 1月17日

Audio Generation Through Score-Based Generative Modeling: Design Principles and Implementation

Arxiv

0+阅读 · 1月14日

相关基金

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

不同尺度下木材构造美学元素的数字化提取与视觉评价

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员