Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores - 专知论文

会员服务 ·

0

基准 · 模态 · 语言模型 · 机器阅读理解 · 微调 ·

Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores

翻译：乐谱理解基准：评估大型语言模型对完整乐谱的阅读理解能力

Congren Dai,Yue Yang,Krinos Li,Huichi Zhou,Shijie Liang,Bo Zhang,Enyang Liu,Ge Jin,Hongran An,Haosen Zhang,Peiyuan Jing,Kinhei Lee,Z henxuan Zhang,Xiaobing Li,Maosong Sun

from arxiv, Accepted to ACL 2026 Main Conference

Understanding complete musical scores entails integrated reasoning over pitch, rhythm, harmony, and large-scale structure, yet the ability of Large Language Models and Vision--Language Models to interpret full musical notation remains insufficiently examined. We introduce Musical Score Understanding Benchmark (MSU-Bench), a human-curated benchmark for score-level musical understanding across textual (ABC notation) and visual (PDF) modalities. MSU-Bench contains 1,800 generative question-answer pairs from works by Bach, Beethoven, Chopin, Debussy, and others, organised into four levels of increasing difficulty, ranging from onset information to texture and form. Evaluations of more than fifteen state-of-the-art models, in both zero-shot and fine-tuned settings, reveal pronounced modality gaps, unstable level-wise performance, and challenges in maintaining multilevel correctness. Fine-tuning substantially improves results across modalities while preserving general knowledge, positioning MSU-Bench as a robust foundation for future research in multimodal reasoning. The benchmark and code are available at https://github.com/Congren-Dai/MSU-Bench.

翻译：理解完整乐谱需要综合推理音高、节奏、和声及大规模结构，但大型语言模型与视觉-语言模型对完整乐谱符号的解读能力尚未得到充分检验。我们提出乐谱理解基准（MSU-Bench），这是一个面向文本（ABC记谱法）与视觉（PDF）模态下乐谱级音乐理解的人工标注基准。MSU-Bench包含来自巴赫、贝多芬、肖邦、德彪西等作曲家作品的1800个生成式问答对，按难度递增分为四个层级，涵盖从音符起始信息到织体与曲式。对超过十五个最先进模型在零样本与微调设置下的评估揭示了显著的模态差异、层级性能不稳定以及保持多层级正确性的挑战。微调在保留通用知识的同时显著提升了跨模态效果，使MSU-Bench成为多模态推理未来研究的稳健基础。基准与代码发布于 https://github.com/Congren-Dai/MSU-Bench。

0

相关内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

13+阅读 · 5月21日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

知识图谱基础模型的数学基础

知识图谱基础模型的数学基础

专知会员服务

41+阅读 · 2025年1月12日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

基础模型视频理解综述

基础模型视频理解综述

专知会员服务

32+阅读 · 2024年5月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

专知

12+阅读 · 2022年4月15日

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

专知

11+阅读 · 2022年2月19日

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

专知

14+阅读 · 2022年1月13日

《知识图谱标准化白皮书》发布，200页pdf，中国电子技术标准化研究院主编

《知识图谱标准化白皮书》发布，200页pdf，中国电子技术标准化研究院主编

专知

53+阅读 · 2019年9月16日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

人工智能头条

165+阅读 · 2018年7月20日

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

专知

24+阅读 · 2018年6月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇知识图谱相关论文—强化学习、习知识图谱的表示、词义消除歧义、并行翻译嵌入、图数据库

【论文推荐】最新5篇知识图谱相关论文—强化学习、习知识图谱的表示、词义消除歧义、并行翻译嵌入、图数据库

专知

10+阅读 · 2018年1月24日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于量子力学的算子谱理论问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

CUB: Benchmarking Context Utilisation Techniques for Language Models

Arxiv

0+阅读 · 4月27日

From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR

Arxiv

0+阅读 · 4月22日

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Arxiv

0+阅读 · 4月13日

A Survey of Inductive Reasoning for Large Language Models

Arxiv

0+阅读 · 4月13日

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Arxiv

0+阅读 · 4月3日

Woosh: A Sound Effects Foundation Model

Arxiv

0+阅读 · 4月2日

SpectraLLM: Uncovering the Ability of LLMs for Molecule Structure Elucidation from Multi-Spectral

Arxiv

0+阅读 · 3月21日

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

Arxiv

0+阅读 · 3月18日

A Survey of Reasoning with Foundation Models

Arxiv

43+阅读 · 2024年1月25日

Video Understanding with Large Language Models: A Survey

Arxiv

13+阅读 · 2023年12月29日

VIP会员

文章信息

相关主题

机器阅读理解

最新内容

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

0+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

3+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

4+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

12+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

13+阅读 · 5月21日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

知识图谱基础模型的数学基础

知识图谱基础模型的数学基础

专知会员服务

41+阅读 · 2025年1月12日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

大模型如何做音乐？最新89页《音乐基础模型》综述

大模型如何做音乐？最新89页《音乐基础模型》综述

专知会员服务

32+阅读 · 2024年8月27日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

基础模型视频理解综述

基础模型视频理解综述

专知会员服务

32+阅读 · 2024年5月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

现代战争的隐蔽系统：伊朗战争十大启示

GNN跨域综述：从消息传递到图基础模型

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

专知

12+阅读 · 2022年4月15日

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

专知

11+阅读 · 2022年2月19日

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

浙江大学最新《知识图谱》课程，八堂课全面讲述识图谱的基本概念、核心技术内涵和应用实践方法

专知

14+阅读 · 2022年1月13日

《知识图谱标准化白皮书》发布，200页pdf，中国电子技术标准化研究院主编

《知识图谱标准化白皮书》发布，200页pdf，中国电子技术标准化研究院主编

专知

53+阅读 · 2019年9月16日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

干货 | 陪伴我学习NLP、知识图谱的那些资源（教程+书籍+网站+工具+论文...可以说很全面了）

人工智能头条

165+阅读 · 2018年7月20日

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

专知

24+阅读 · 2018年6月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇知识图谱相关论文—强化学习、习知识图谱的表示、词义消除歧义、并行翻译嵌入、图数据库

【论文推荐】最新5篇知识图谱相关论文—强化学习、习知识图谱的表示、词义消除歧义、并行翻译嵌入、图数据库

专知

10+阅读 · 2018年1月24日

相关论文

CUB: Benchmarking Context Utilisation Techniques for Language Models

Arxiv

0+阅读 · 4月27日

From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR

Arxiv

0+阅读 · 4月22日

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Arxiv

0+阅读 · 4月13日

A Survey of Inductive Reasoning for Large Language Models

Arxiv

0+阅读 · 4月13日

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Arxiv

0+阅读 · 4月3日

Woosh: A Sound Effects Foundation Model

Arxiv

0+阅读 · 4月2日

SpectraLLM: Uncovering the Ability of LLMs for Molecule Structure Elucidation from Multi-Spectral

Arxiv

0+阅读 · 3月21日

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

Arxiv

0+阅读 · 3月18日

A Survey of Reasoning with Foundation Models

Arxiv

43+阅读 · 2024年1月25日

Video Understanding with Large Language Models: A Survey

Arxiv

13+阅读 · 2023年12月29日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于量子力学的算子谱理论问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员