Estimating piano dynamic from audio recordings is a fundamental challenge in computational music analysis. In this paper, we propose an efficient multi-task network that jointly predicts dynamic levels, change points, beats, and downbeats from a shared latent representation. These four targets form the metrical structure of dynamics in the music score. Inspired by recent vocal dynamic research, we use a multi-scale network as the backbone, which takes Bark-scale specific loudness as the input feature. Compared to log-Mel as input, this reduces model size from 14.7 M to 0.5 M, enabling long sequential input. We use a 60-second audio length in audio segmentation, which doubled the length of beat tracking commonly used. Evaluated on the public MazurkaBL dataset, our model achieves state-of-the-art results across all tasks. This work sets a new benchmark for piano dynamic estimation and delivers a powerful and compact tool, paving the way for large-scale, resource-efficient analysis of musical expression.


翻译:从音频录音中估计钢琴动态是计算音乐分析中的一个基本挑战。本文提出一种高效的多任务网络,能够从共享的潜在表示中联合预测动态级别、变化点、节拍与强拍。这四个目标共同构成了乐谱中动态的节拍结构。受近期声乐动态研究的启发,我们采用多尺度网络作为主干架构,以巴克尺度特定响度作为输入特征。与对数梅尔谱输入相比,该方法将模型参数量从1470万降低至50万,从而支持长序列输入。在音频分段中我们采用60秒的音频长度,这达到了常用节拍追踪方法时长的两倍。在公开数据集MazurkaBL上的评估表明,我们的模型在所有任务上均达到了最先进的性能。本研究为钢琴动态估计设立了新的基准,并提供了一个强大而紧凑的工具,为大规模、资源高效的音乐表情分析铺平了道路。

0
下载
关闭预览

相关内容

多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
最新《动态网络嵌入》综述论文,25页pdf
专知
37+阅读 · 2020年6月17日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员