BMdataset: A Musicologically Curated LilyPond Dataset - 专知论文

会员服务 ·

0

音乐 · 数据集 · 语料 · 语料库 · 预训练 ·

BMdataset: A Musicologically Curated LilyPond Dataset

翻译：BMdataset：一个音乐学精心策展的LilyPond数据集

Matteo Spanio,Ilay Guler,Antonio Rodà

from arxiv, Submitted to SMC2026

Symbolic music research has relied almost exclusively on MIDI-based datasets; text-based engraving formats such as LilyPond remain unexplored for music understanding. We present BMdataset, a musicologically curated dataset of 393 LilyPond scores (2,646 movements) transcribed by experts directly from original Baroque manuscripts, with metadata covering composer, musical form, instrumentation, and sectional attributes. Building on this resource, we introduce LilyBERT (weights can be found at https://huggingface.co/csc-unipd/lilybert), a CodeBERT-based encoder adapted to symbolic music through vocabulary extension with 115 LilyPond-specific tokens and masked language model pre-training. Linear probing on the out-of-domain Mutopia corpus shows that, despite its modest size (~90M tokens), fine-tuning on BMdataset alone outperforms continuous pre-training on the full PDMX corpus (~15B tokens) for both composer and style classification, demonstrating that small, expertly curated datasets can be more effective than large, noisy corpora for music understanding. Combining broad pre-training with domain-specific fine-tuning yields the best results overall (84.3% composer accuracy), confirming that the two data regimes are complementary. We release the dataset, tokenizer, and model to establish a baseline for representation learning on LilyPond.

翻译：符号音乐研究几乎完全依赖基于MIDI的数据集；诸如LilyPond等文本排版格式在音乐理解方面尚未得到充分探索。我们提出BMdataset，一个音乐学精心策展的数据集，包含393份由专家直接从原始巴洛克手稿转录的LilyPond乐谱（2646个乐章），其元数据涵盖作曲家、音乐形式、乐器编制及分节属性。基于此资源，我们引入LilyBERT（权重可见于https://huggingface.co/csc-unipd/lilybert），这是一个基于CodeBERT的编码器，通过扩展词表添加115个LilyPond专用标记并进行掩码语言模型预训练，从而适配符号音乐。在域外Mutopia语料库上的线性探测表明，尽管其规模适中（约9000万词元），但BMdataset微调在作曲家和风格分类任务上均优于对整个PDMX语料库（约150亿词元）的持续预训练，证明对于音乐理解而言，小型专业策展数据集比大型噪声语料库更有效。结合广泛预训练与领域特定微调可取得整体最佳结果（作曲家分类准确率84.3%），证实这两种数据机制具有互补性。我们发布该数据集、分词器及模型，为基于LilyPond的表示学习建立基线。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

DARPA D3M计划《发现和收集数据以支持数据分析》

DARPA D3M计划《发现和收集数据以支持数据分析》

专知会员服务

38+阅读 · 2024年5月18日

Sora如何复现? 百万级真实提示库数据集，用于文本到视频扩散模型

Sora如何复现? 百万级真实提示库数据集，用于文本到视频扩散模型

专知会员服务

33+阅读 · 2024年3月13日

DARPA“数据驱动的模型发现（D3M）”计划 |《统计探索、模型提取和策划（TwoRavens）》

DARPA“数据驱动的模型发现（D3M）”计划 |《统计探索、模型提取和策划（TwoRavens）》

专知会员服务

60+阅读 · 2023年4月23日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【WSDM2020】超越统计关系：将知识关系整合到多标签音乐风格分类的风格关联中（附pdf）

专知会员服务

18+阅读 · 2019年11月23日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

干货 | 100+个NLP数据集大放送，再不愁数据！

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

比xgboost强大的LightGBM：调参指南(带贝叶斯优化代码)

比xgboost强大的LightGBM：调参指南(带贝叶斯优化代码)

数据挖掘入门与实战

23+阅读 · 2018年4月9日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量模式的DTI数据模式分类及其分布式算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

傣族贝叶经字符提取与识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

Arxiv

0+阅读 · 6月7日

MyGardenBird: A Machine-Learning-Ready Bird Sound Dataset for Twelve Common Malaysian Birds

Arxiv

0+阅读 · 6月5日

MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation

Arxiv

0+阅读 · 6月1日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月21日

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Arxiv

0+阅读 · 5月14日

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval

Arxiv

0+阅读 · 5月14日

Text2Score: Generating Sheet Music From Textual Prompts

Arxiv

0+阅读 · 5月13日

Reddit2Deezer: A Scalable Dataset for Real-World Grounded Conversational Music Recommendation

Arxiv

0+阅读 · 5月9日

Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences

Arxiv

0+阅读 · 4月12日

Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

Arxiv

0+阅读 · 4月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

0+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

0+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

DARPA D3M计划《发现和收集数据以支持数据分析》

DARPA D3M计划《发现和收集数据以支持数据分析》

专知会员服务

38+阅读 · 2024年5月18日

Sora如何复现? 百万级真实提示库数据集，用于文本到视频扩散模型

Sora如何复现? 百万级真实提示库数据集，用于文本到视频扩散模型

专知会员服务

33+阅读 · 2024年3月13日

DARPA“数据驱动的模型发现（D3M）”计划 |《统计探索、模型提取和策划（TwoRavens）》

DARPA“数据驱动的模型发现（D3M）”计划 |《统计探索、模型提取和策划（TwoRavens）》

专知会员服务

60+阅读 · 2023年4月23日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【WSDM2020】超越统计关系：将知识关系整合到多标签音乐风格分类的风格关联中（附pdf）

专知会员服务

18+阅读 · 2019年11月23日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

干货 | 100+个NLP数据集大放送，再不愁数据！

干货 | 100+个NLP数据集大放送，再不愁数据！

数据派THU

11+阅读 · 2018年5月2日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

Github 项目推荐 | 包含文本数据的免费 / 公共领域的 NLP 数据集

AI研习社

12+阅读 · 2018年4月10日

比xgboost强大的LightGBM：调参指南(带贝叶斯优化代码)

比xgboost强大的LightGBM：调参指南(带贝叶斯优化代码)

数据挖掘入门与实战

23+阅读 · 2018年4月9日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Can LLMs understand LilyPond? A benchmark for symbolic music generation and understanding

Arxiv

0+阅读 · 6月7日

MyGardenBird: A Machine-Learning-Ready Bird Sound Dataset for Twelve Common Malaysian Birds

Arxiv

0+阅读 · 6月5日

MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation

Arxiv

0+阅读 · 6月1日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月21日

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Arxiv

0+阅读 · 5月14日

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval

Arxiv

0+阅读 · 5月14日

Text2Score: Generating Sheet Music From Textual Prompts

Arxiv

0+阅读 · 5月13日

Reddit2Deezer: A Scalable Dataset for Real-World Grounded Conversational Music Recommendation

Arxiv

0+阅读 · 5月9日

Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences

Arxiv

0+阅读 · 4月12日

Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

Arxiv

0+阅读 · 4月8日

相关基金

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量模式的DTI数据模式分类及其分布式算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

傣族贝叶经字符提取与识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员