MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions - 专知论文

会员服务 ·

0

音乐 · 数据集 · 模态 · 多模 · 多模态 ·

MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions

翻译：MusicSem：一个语义丰富的自然音乐描述语言-音频数据集

Rebecca Salganik,Teng Tu,Fei-Yueh Chen,Xiaohao Liu,Keifeng Lu,Ethan Luvisia,Zhiyao Duan,Guillaume Salha-Galvan,Anson Kahng,Yunshan Ma,Jian Kang

Music representation learning is central to music information retrieval and generation. While recent advances in multimodal learning have improved alignment between text and audio for tasks such as cross-modal music retrieval, text-to-music generation, and music-to-text generation, existing models often struggle to capture users' expressed intent in natural language descriptions of music. This observation suggests that the datasets used to train and evaluate these models do not fully reflect the broader and more natural forms of human discourse through which music is described. In this paper, we introduce MusicSem, a dataset of 32,493 language-audio pairs derived from organic music-related discussions on the social media platform Reddit. Compared to existing datasets, MusicSem captures a broader spectrum of musical semantics, reflecting how listeners naturally describe music in nuanced and human-centered ways. To structure these expressions, we propose a taxonomy of five semantic categories: descriptive, atmospheric, situational, metadata-related, and contextual. In addition to the construction, analysis, and release of MusicSem, we use the dataset to evaluate a wide range of multimodal models for retrieval and generation, highlighting the importance of modeling fine-grained semantics. Overall, MusicSem serves as a novel semantics-aware resource to support future research on human-aligned multimodal music representation learning.

翻译：音乐表示学习是音乐信息检索与生成的核心。尽管多模态学习的最新进展提升了文本与音频在跨模态音乐检索、文本到音乐生成及音乐到文本生成等任务中的对齐效果，现有模型仍难以准确捕捉用户在自然语言音乐描述中所表达的意图。这一现象表明，用于训练和评估这些模型的数据集未能充分反映人类描述音乐时更广泛、更自然的表达形式。本文提出MusicSem数据集，该数据集包含32,493个语言-音频对，源自社交媒体平台Reddit上关于音乐的有机讨论。与现有数据集相比，MusicSem涵盖了更广泛的音乐语义范畴，体现了听众以细腻且以人为本的方式自然描述音乐的特点。为系统组织这些表达，我们提出了包含五个语义类别的分类体系：描述性、氛围性、情境性、元数据相关性和上下文性。除MusicSem的构建、分析与发布外，我们利用该数据集评估了多种多模态检索与生成模型，凸显了细粒度语义建模的重要性。总体而言，MusicSem作为一个新颖的语义感知资源，将为未来面向人类对齐的多模态音乐表示学习研究提供支持。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大规模多模态模型数据集、应用类别与分类学综述

大规模多模态模型数据集、应用类别与分类学综述

专知会员服务

58+阅读 · 2024年12月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

110+阅读 · 2020年9月1日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知会员服务

39+阅读 · 2020年3月5日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

云南高原湿地生态环境音分类技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

Gesture2Music: A Low-Latency Real-Time Framework for Continuous Gesture-Driven Music Generation

Arxiv

0+阅读 · 4月27日

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 4月15日

Supporting Music Education through Visualizations of MIDI Recordings

Arxiv

0+阅读 · 3月24日

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

Arxiv

0+阅读 · 3月17日

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Arxiv

0+阅读 · 3月4日

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Arxiv

0+阅读 · 3月4日

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

Arxiv

0+阅读 · 2月23日

A Survey on Cross-Modal Interaction Between Music and Multimodal Data

Arxiv

0+阅读 · 2月21日

VIP会员

文章信息

相关主题

最新内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

1+阅读 · 31分钟前

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

0+阅读 · 32分钟前

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大规模多模态模型数据集、应用类别与分类学综述

大规模多模态模型数据集、应用类别与分类学综述

专知会员服务

58+阅读 · 2024年12月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

110+阅读 · 2020年9月1日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知会员服务

39+阅读 · 2020年3月5日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 推理时控制：可信大语言模型的运行时治理全景

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

BES：让语言模型通过双向进化搜索自我改进

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

Gesture2Music: A Low-Latency Real-Time Framework for Continuous Gesture-Driven Music Generation

Arxiv

0+阅读 · 4月27日

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 4月15日

Supporting Music Education through Visualizations of MIDI Recordings

Arxiv

0+阅读 · 3月24日

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

Arxiv

0+阅读 · 3月17日

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Arxiv

0+阅读 · 3月4日

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Arxiv

0+阅读 · 3月4日

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

Arxiv

0+阅读 · 2月23日

A Survey on Cross-Modal Interaction Between Music and Multimodal Data

Arxiv

0+阅读 · 2月21日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

云南高原湿地生态环境音分类技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员