Audio-to-score alignment is a long-standing challenge in music information retrieval and arguably the most widely applicable alignment task for music research. Alignment algorithms match two versions of a piece of music, and for this to work these versions need to be in comparable formats. Audio-to-audio alignment matches audio features; when matching audio files to scores, they must either synthesize the score or derive audio-like features by means of piano rolls or similar feature sequences. Symbolic alignment, by contrast, matches symbolically encoded notes; in an audio-to-score scenario these would be obtained by a transcription of the audio file. In this article, we present an algorithm that bridges audio-like and symbol-level features directly. Sequential audio features encoding onset and spectral activation are matched to score positions by a bespoke dynamic programming-based matching algorithm derived from symbolic alignment methods. The resulting method is both precise - surpassing widely used audio-to-audio approaches based on synthesized scores -, and remains flexible in its digital signal processing components, i.e., the method is adaptable to diverse timbral characteristics without requiring a separate transcription model. Furthermore it inherits some of the symbolic alignment runtime advantages with an algorithmic complexity that is at worst linear in the length of the (typically short) symbolic score and (typically long) audio feature sequence. In the following sections, we provide a detailed algorithm description and evaluate its alignment quality on a large-scale dataset of solo piano recordings.


翻译:音频-乐谱对齐是音乐信息检索领域长期存在的挑战,也是音乐研究中应用最广泛的对齐任务。对齐算法能够匹配同一首音乐的两个版本,且要求这些版本具备可比格式。音频-音频对齐可匹配音频特征;当将音频文件与乐谱对齐时,要么需要合成乐谱,要么通过钢琴卷帘或类似特征序列提取类音频特征。符号对齐则匹配符号编码的音符;在音频-乐谱场景中,这些音符通过音频文件的转录获得。本文提出一种直接桥接类音频特征与符号级特征的算法。该算法利用基于符号对齐方法定制的动态规划匹配算法,将编码起音和频谱激活的序列音频特征与乐谱位置进行匹配。该方法兼具精确性(优于基于合成乐谱的广泛使用的音频-音频方法)和灵活性(其数字信号处理组件可适应不同音色特征,无需独立转录模型)。此外,该方法继承了符号对齐的运行时优势,其算法复杂度在最坏情况下与(通常较短的)符号乐谱和(通常较长的)音频特征序列长度呈线性关系。后续章节将提供详细的算法描述,并在大规模独奏钢琴录音数据集上评估其对齐质量。

0
下载
关闭预览

相关内容

《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
综述 | 图像配准 Image registration
计算机视觉life
19+阅读 · 2019年9月12日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
相关资讯
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
综述 | 图像配准 Image registration
计算机视觉life
19+阅读 · 2019年9月12日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员