Concept-based interpretability methods like TCAV require clean, well-separated positive and negative examples for each concept. Existing music datasets lack this structure: tags are sparse, noisy, or ill-defined. We introduce ConceptCaps, a dataset of 23k music-caption-audio triplets with explicit labels from a 200-attribute taxonomy. Our pipeline separates semantic modeling from text generation: a VAE learns plausible attribute co-occurrence patterns, a fine-tuned LLM converts attribute lists into professional descriptions, and MusicGen synthesizes corresponding audio. This separation improves coherence and controllability over end-to-end approaches. We validate the dataset through audio-text alignment (CLAP), linguistic quality metrics (BERTScore, MAUVE), and TCAV analysis confirming that concept probes recover musically meaningful patterns. Dataset and code are available online.


翻译:基于概念的可解释性方法(如TCAV)需要为每个概念提供干净、分离良好的正负示例。现有的音乐数据集缺乏这种结构:标签稀疏、有噪声或定义不清。我们提出了ConceptCaps,这是一个包含23k个音乐-描述-音频三元组的数据集,其标签来自一个包含200个属性的分类体系。我们的流程将语义建模与文本生成分离:一个VAE学习合理的属性共现模式,一个微调的LLM将属性列表转换为专业描述,而MusicGen则合成相应的音频。这种分离相较于端到端方法提高了连贯性和可控性。我们通过音频-文本对齐(CLAP)、语言质量指标(BERTScore、MAUVE)以及TCAV分析验证了该数据集,确认概念探针能够恢复具有音乐意义的模式。数据集和代码已在线公开。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
基础模型视频理解综述
专知会员服务
31+阅读 · 2024年5月8日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基础模型视频理解综述
专知会员服务
31+阅读 · 2024年5月8日
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员