Audio-language models (ALMs) are increasingly used in real-world applications that require understanding music, from music tutoring and transcription to captioning, recommendation systems, and music production. More broadly, they are becoming an important component of multimodal AI systems that must reason from sensory input rather than text alone. This makes reliable musical perception a critical prerequisite: if a model cannot accurately hear the structure of sound, it cannot be trusted to reason about, teach, transcribe, or act on audio in the real world. Yet existing benchmarks rarely assess one of the most fundamental musical abilities underlying such perception: pitch hearing. Current evaluations tend to probe pitch hearing only indirectly, through higher-level tasks and often in multiple-choice formats, leaving open how reliably ALMs identify fine-grained pitch across instruments, acoustic conditions, and response formats. We introduce PitchBench, an evaluation suite that systematically measures pitch hearing in ALMs. PitchBench comprises 28 experiments spanning absolute and relative pitch perception within sequences and chords, while varying loudness, note duration, sound source, time stretching, background noise, and other acoustic conditions. Tasks range from identifying individual pitches in isolation to tracking a melodic line within a four-part musical texture. Evaluating frontier ALMs, we find that pitch hearing remains highly unreliable: models perform consistently poorly across settings, with accuracy varying sharply by sound source, note duration, and notation format. Current ALMs do not yet possess stable pitch perception, even for controlled synthetic and instrumental stimuli. Alongside the benchmark, we release PitchBench as a Python package containing the evaluation data and data generation tools to support future work on pitch-aware audio-language modeling.


翻译:音频语言模型(ALMs)正越来越多地应用于需要理解音乐的实际场景中,例如音乐辅导、转录、字幕生成、推荐系统及音乐制作等。更广泛地说,它们正成为多模态AI系统的重要组成部分,这类系统需要从感官输入而非仅从文本进行推理。因此,可靠的音乐感知能力成为一个关键前提:如果模型无法准确感知声音结构,就无法信任它对音频进行推理、教学、转录或在实际世界中做出响应。然而,现有基准评估很少测试这种感知能力中最基本的音乐能力之一:音高听觉。当前的评估往往仅通过高阶任务间接测试音高听觉,且常采用多项选择格式,这使得模型在不同乐器、声学条件和响应格式下识别精细音高的可靠性仍然未知。我们提出PitchBench——一个系统性测量ALMs音高听觉能力的评估套件。PitchBench包含28项实验,涵盖序列与和弦中的绝对音高和相对音高感知,同时变化响度、音符时长、声源、时间拉伸、背景噪声及其他声学条件。任务范围从独立识别单个音高,到在四部音乐织体中追踪旋律线条。通过评估前沿ALMs,我们发现其音高听觉能力高度不可靠:模型在各设定下表现持续不佳,准确率随声源、音符时长和记号格式变化剧烈。当前ALMs尚未具备稳定的音高感知能力,即使面对可控的合成与器乐刺激也是如此。除基准测试外,我们还以Python包的形式发布PitchBench,包含评估数据与数据生成工具,以支持未来音高感知音频语言建模的研究。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员