Bioacoustic datasets from tropical regions remain limited, in part due to the absence of reproducible workflows for aggregating recordings from public archives. We present \textbf{MyGardenBird}, a curated dataset of bird vocalisations representing twelve common species across Peninsular Malaysia and the Indo-Malayan region. Recordings were sourced from Xeno-canto and processed through species-level filtering, manual spectrogram segmentation, and quality control checks. The primary release comprises 7,200 manually validated audio clips (16 kHz, 16-bit PCM mono WAV), balanced at 600 three-second clips per species (6.0 hours total) derived from 1,381 distinct recordings. Metadata includes geospatial coordinates, vocalisation categories, and signal-to-noise ratio (SNR) values (range: 0.83--59.18 dB; mean: 15.80 dB). A supplementary 44.1 kHz version is also provided. To mitigate data leakage, dataset partitions are defined at the source-recording level. Baseline classification experiments using convolutional neural networks on Mel-spectrograms achieved test accuracies of 92--96\%, indicating strong interspecies separability. Limitations include reliance on single-annotator curation; however, validation with BirdNET confirmed label consistency. MyGardenBird is openly available at https://doi.org/10.5281/zenodo.20306877 under a CC BY-NC-SA 4.0 licence. Complete preprocessing code accompanies the release to support reproducibility and future expansion.


翻译:热带地区的生物声学数据集仍然有限,部分原因是缺乏从公共档案中汇总录音的可复现工作流程。我们提出了**MyGardenBird**,这是一个精选的鸟类发声数据集,涵盖了马来西亚半岛和印马地区的十二种常见物种。录音来源于Xeno-canto,并经过物种级别的筛选、人工语谱图分割和质量控制检查。主要发布版本包含7,200个经过人工验证的音频片段(16 kHz、16位PCM单声道WAV),每个物种600个三秒片段(总计6.0小时),源自1,381个不同的录音。元数据包括地理空间坐标、发声类别和信噪比(SNR)值(范围:0.83–59.18 dB;平均值:15.80 dB)。此外,还提供了一个44.1 kHz的补充版本。为减少数据泄露,数据集分区以源录音级别进行定义。使用卷积神经网络在梅尔频谱图上的基线分类实验达到了92–96%的测试准确率,表明物种间具有较强的可分性。局限性包括依赖单一标注者进行整理;然而,通过BirdNET进行的验证确认了标签的一致性。MyGardenBird以CC BY-NC-SA 4.0许可协议在https://doi.org/10.5281/zenodo.20306877 上公开提供。完整的预处理代码随发布一同提供,以支持可复现性和未来扩展。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《用于语音取证和高超音速飞行器应用的机器学习》200页
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《用于语音取证和高超音速飞行器应用的机器学习》200页
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
相关资讯
我是如何寻找数据集的,一些个人私藏
极市平台
10+阅读 · 2021年12月17日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员