Automated piano performance evaluation traditionally relies on symbolic (MIDI) representations, which capture note-level information but miss the acoustic nuances that characterize expressive playing. I propose using pre-trained audio foundation models, specifically MuQ and MERT, to predict 19 perceptual dimensions of piano performance quality. Using synthesized audio from PercePiano MIDI files (rendered via Pianoteq), I compare audio and symbolic approaches under controlled conditions where both derive from identical source data. The best model, MuQ layers 9-12 with Pianoteq soundfont augmentation, achieves R^2 = 0.537 (95% CI: [0.465, 0.575]), representing a 55% improvement over the symbolic baseline (R^2 = 0.347). Statistical analysis confirms significance (p < 10^-25) with audio outperforming symbolic on all 19 dimensions. I validate the approach through cross-soundfont generalization (R^2 = 0.534 +/- 0.075), difficulty correlation with an external dataset (rho = 0.623), and multi-performer consistency analysis. Analysis of audio-symbolic fusion reveals high error correlation (r = 0.738), explaining why fusion provides minimal benefit: audio representations alone are sufficient. I release the complete training pipeline, pretrained models, and inference code.


翻译:传统的自动化钢琴演奏评估通常依赖于符号化(MIDI)表征,这类表征能捕捉音符层级的信息,却遗漏了表征表现力演奏的声学细微差别。本文提出使用预训练的音频基础模型,特别是MuQ和MERT,来预测钢琴演奏质量的19个感知维度。利用从PercePiano MIDI文件(通过Pianoteq渲染)合成的音频,我在受控条件下比较了音频与符号化方法,两者均源自相同的数据源。最佳模型——使用Pianoteq音色库增强的MuQ第9至12层——达到了R^2 = 0.537(95%置信区间:[0.465, 0.575]),相较于符号化基线(R^2 = 0.347)提升了55%。统计分析证实了其显著性(p < 10^-25),音频模型在所有19个维度上均优于符号化模型。我通过跨音色库泛化能力(R^2 = 0.534 +/- 0.075)、与外部数据集的难度相关性(rho = 0.623)以及多演奏者一致性分析验证了该方法。对音频-符号化融合的分析揭示了较高的误差相关性(r = 0.738),这解释了为何融合带来的收益微乎其微:单独的音频表征已足够充分。我发布了完整的训练流程、预训练模型及推理代码。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
大模型如何做音乐?最新89页《音乐基础模型》综述
专知会员服务
32+阅读 · 2024年8月27日
专知会员服务
22+阅读 · 2021年10月8日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员