Symbolic music evaluation for large language models remains fragmented across representations, datasets, and metrics. We introduce LilyBench, a LilyPond-based benchmark that jointly evaluates symbolic music generation and music understanding on the same family of open-weight LLMs. The benchmark includes a 200-prompt generation suite and ten understanding tasks adapted from ABC-Eval, covering syntax, metadata prediction, structural sequencing, and music recognition. Generation quality is evaluated using compile rate, MusPy descriptor distributions via Jensen-Shannon similarity, and LilyBERT-based Fréchet Music Distance (FMD). Experiments on four open-weight models show that executable LilyPond generation is achievable in zero-shot settings, while structural understanding tasks remain challenging despite strong performance on composer and genre recognition. Our experiments also reveal systematic disagreements between descriptor-based and embedding-based metrics, suggesting that symbolic music evaluation benefits from metric triangulation rather than single-score ranking. We release the benchmark, prompt bank, and evaluation code to support future research in symbolic music generation and understanding at https://github.com/CSCPadova/lilybench


翻译:大语言模型在符号音乐评估方面仍存在表示形式、数据集与指标碎片化的问题。我们提出LilyBench——基于LilyPond格式的基准测试,用于在同一系列开源权重大语言模型上联合评估符号音乐生成与音乐理解能力。该基准包含200个提示的生成测试集及改编自ABC-Eval的十项理解任务,涵盖语法分析、元数据预测、结构排序与音乐识别。生成质量通过编译率、基于詹森-香农相似度的MusPy描述符分布,以及基于LilyBERT的弗雷歇音乐距离(FMD)进行评估。对四个开源权重模型的实验表明:在零样本设置下可实现可执行的LilyPond生成,但结构理解任务仍具挑战性,尽管模型在作曲家和流派识别方面表现优异。实验同时揭示了基于描述符与基于嵌入的评估指标之间的系统性分歧,表明符号音乐评估更适合采用多指标三角互证而非单一评分排名。我们已发布基准测试、提示库及评估代码(https://github.com/CSCPadova/lilybench),以支持符号音乐生成与理解领域的未来研究。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
大模型如何做音乐?最新89页《音乐基础模型》综述
专知会员服务
32+阅读 · 2024年8月27日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
王仲远 | 基于概念知识图谱的短文本理解
开放知识图谱
14+阅读 · 2018年3月28日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
王仲远 | 基于概念知识图谱的短文本理解
开放知识图谱
14+阅读 · 2018年3月28日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员