Precise and Simple Audio-to-Score Alignment - 专知论文

会员服务 ·

0

得分 · 查准率/准确率 · SimPLe · INFORMS · 相似度 ·

Precise and Simple Audio-to-Score Alignment

翻译：精确且简便的音频-乐谱对齐

Silvan Peter,Patricia Hu,Gerhard Widmer

from arxiv, published at the Music Encoding Conference (MEC) 2026

Audio-to-score alignment is a long-standing challenge in music information retrieval and arguably the most widely applicable alignment task for music research. Alignment algorithms match two versions of a piece of music, and for this to work these versions need to be in comparable formats. Audio-to-audio alignment matches audio features; when matching audio files to scores, they must either synthesize the score or derive audio-like features by means of piano rolls or similar feature sequences. Symbolic alignment, by contrast, matches symbolically encoded notes; in an audio-to-score scenario these would be obtained by a transcription of the audio file. In this article, we present an algorithm that bridges audio-like and symbol-level features directly. Sequential audio features encoding onset and spectral activation are matched to score positions by a bespoke dynamic programming-based matching algorithm derived from symbolic alignment methods. The resulting method is both precise - surpassing widely used audio-to-audio approaches based on synthesized scores -, and remains flexible in its digital signal processing components, i.e., the method is adaptable to diverse timbral characteristics without requiring a separate transcription model. Furthermore it inherits some of the symbolic alignment runtime advantages with an algorithmic complexity that is at worst linear in the length of the (typically short) symbolic score and (typically long) audio feature sequence. In the following sections, we provide a detailed algorithm description and evaluate its alignment quality on a large-scale dataset of solo piano recordings.

翻译：音频-乐谱对齐是音乐信息检索领域长期存在的挑战，也是音乐研究中应用最广泛的对齐任务。对齐算法能够匹配同一首音乐的两个版本，且要求这些版本具备可比格式。音频-音频对齐可匹配音频特征；当将音频文件与乐谱对齐时，要么需要合成乐谱，要么通过钢琴卷帘或类似特征序列提取类音频特征。符号对齐则匹配符号编码的音符；在音频-乐谱场景中，这些音符通过音频文件的转录获得。本文提出一种直接桥接类音频特征与符号级特征的算法。该算法利用基于符号对齐方法定制的动态规划匹配算法，将编码起音和频谱激活的序列音频特征与乐谱位置进行匹配。该方法兼具精确性（优于基于合成乐谱的广泛使用的音频-音频方法）和灵活性（其数字信号处理组件可适应不同音色特征，无需独立转录模型）。此外，该方法继承了符号对齐的运行时优势，其算法复杂度在最坏情况下与（通常较短的）符号乐谱和（通常较长的）音频特征序列长度呈线性关系。后续章节将提供详细的算法描述，并在大规模独奏钢琴录音数据集上评估其对齐质量。

0

相关内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

专知会员服务

10+阅读 · 2025年3月25日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

「实体对齐」最新2022综述

「实体对齐」最新2022综述

专知

13+阅读 · 2022年3月17日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

端频率信号的离散频谱校正方法及应用基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Diffusion-Network Alignment: An Efficient Algorithm and Explicit Probability Bounds

Arxiv

0+阅读 · 6月11日

PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

Arxiv

0+阅读 · 6月7日

FIGMA: Towards FIne-Grained Music retrievAl

Arxiv

0+阅读 · 6月4日

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval

Arxiv

0+阅读 · 6月4日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月28日

MERIT: Learning Disentangled Music Representations for Audio Similarity

Arxiv

0+阅读 · 5月26日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月21日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

查准率/准确率

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

专知会员服务

10+阅读 · 2025年3月25日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

「实体对齐」最新2022综述

「实体对齐」最新2022综述

专知

13+阅读 · 2022年3月17日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

相关论文

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Diffusion-Network Alignment: An Efficient Algorithm and Explicit Probability Bounds

Arxiv

0+阅读 · 6月11日

PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

Arxiv

0+阅读 · 6月7日

FIGMA: Towards FIne-Grained Music retrievAl

Arxiv

0+阅读 · 6月4日

FORTE: FOL-guided Optimal Refinement for Text-audio rEtrieval

Arxiv

0+阅读 · 6月4日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月28日

MERIT: Learning Disentangled Music Representations for Audio Similarity

Arxiv

0+阅读 · 5月26日

Direct content-based retrieval from music scores images

Arxiv

0+阅读 · 5月21日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Arxiv

0+阅读 · 5月13日

相关基金

端频率信号的离散频谱校正方法及应用基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员