The Complete Vocal Technique (CVT) is a school of singing developed in the past decades by Cathrin Sadolin et al.. CVT groups the use of the voice into so called vocal modes, namely Neutral, Curbing, Overdrive and Edge. Knowledge of the desired vocal mode can be helpful for singing students. Automatic classification of vocal modes can thus be important for technology-assisted singing teaching. Previously, automatic classification of vocal modes has been attempted without major success, potentially due to a lack of data. Therefore, we recorded a novel vocal mode dataset consisting of sustained vowels recorded from four singers, three of which professional singers with more than five years of CVT-experience. The dataset covers the entire vocal range of the subjects, totaling 3,752 unique samples. By using four microphones, thereby offering a natural data augmentation, the dataset consists of more than 13,000 samples combined. An annotation was created using three CVT-experienced annotators, each providing an individual annotation. The merged annotation as well as the three individual annotations come with the published dataset. Additionally, we provide some baseline classification results. The best balanced accuracy across a 5-fold cross validation of 81.3\,\% was achieved with a ResNet18. The dataset can be downloaded under https://zenodo.org/records/14276415.


翻译:完整声乐技术(CVT)是由 Cathrin Sadolin 等人于过去几十年发展起来的一种歌唱流派。CVT 将嗓音的运用分为所谓的声乐模式,即中性模式、抑制模式、过载模式和边缘模式。了解所需的声乐模式对歌唱学习者有所帮助。因此,声乐模式的自动分类对于技术辅助歌唱教学具有重要意义。先前,声乐模式的自动分类尝试并未取得重大成功,可能源于数据缺乏。为此,我们录制了一个新颖的声乐模式数据集,其中包含四位歌手演唱的持续元音,其中三位是拥有五年以上 CVT 经验的专业歌手。该数据集覆盖了受试者的全部音域,总计 3,752 个独立样本。通过使用四个麦克风进行录制,从而提供了自然的数据增强,该数据集合并后包含超过 13,000 个样本。标注工作由三位具有 CVT 经验的标注者完成,每位标注者提供独立的标注。发布的数据集包含合并后的标注以及三位标注者的独立标注。此外,我们提供了一些基线分类结果。在 5 折交叉验证中,使用 ResNet18 实现了 81.3% 的最佳平衡准确率。该数据集可通过 https://zenodo.org/records/14276415 下载。

0
下载
关闭预览

相关内容

大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员