Understanding complete musical scores entails integrated reasoning over pitch, rhythm, harmony, and large-scale structure, yet the ability of Large Language Models and Vision--Language Models to interpret full musical notation remains insufficiently examined. We introduce Musical Score Understanding Benchmark (MSU-Bench), a human-curated benchmark for score-level musical understanding across textual (ABC notation) and visual (PDF) modalities. MSU-Bench contains 1,800 generative question-answer pairs from works by Bach, Beethoven, Chopin, Debussy, and others, organised into four levels of increasing difficulty, ranging from onset information to texture and form. Evaluations of more than fifteen state-of-the-art models, in both zero-shot and fine-tuned settings, reveal pronounced modality gaps, unstable level-wise performance, and challenges in maintaining multilevel correctness. Fine-tuning substantially improves results across modalities while preserving general knowledge, positioning MSU-Bench as a robust foundation for future research in multimodal reasoning. The benchmark and code are available at https://github.com/Congren-Dai/MSU-Bench.


翻译:理解完整乐谱需要综合推理音高、节奏、和声及大规模结构,但大型语言模型与视觉-语言模型对完整乐谱符号的解读能力尚未得到充分检验。我们提出乐谱理解基准(MSU-Bench),这是一个面向文本(ABC记谱法)与视觉(PDF)模态下乐谱级音乐理解的人工标注基准。MSU-Bench包含来自巴赫、贝多芬、肖邦、德彪西等作曲家作品的1800个生成式问答对,按难度递增分为四个层级,涵盖从音符起始信息到织体与曲式。对超过十五个最先进模型在零样本与微调设置下的评估揭示了显著的模态差异、层级性能不稳定以及保持多层级正确性的挑战。微调在保留通用知识的同时显著提升了跨模态效果,使MSU-Bench成为多模态推理未来研究的稳健基础。基准与代码发布于 https://github.com/Congren-Dai/MSU-Bench。

0
下载
关闭预览

相关内容

大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
56+阅读 · 2025年10月24日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大模型如何做音乐?最新89页《音乐基础模型》综述
专知会员服务
32+阅读 · 2024年8月27日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
基础模型视频理解综述
专知会员服务
32+阅读 · 2024年5月8日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
0+阅读 · 今天3:58
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
3+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
4+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
12+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关VIP内容
大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
56+阅读 · 2025年10月24日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大模型如何做音乐?最新89页《音乐基础模型》综述
专知会员服务
32+阅读 · 2024年8月27日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
基础模型视频理解综述
专知会员服务
32+阅读 · 2024年5月8日
相关资讯
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员