Tokenizing music to fit the general framework of language models is a compelling challenge, especially considering the diverse symbolic structures in which music can be represented (e.g., sequences, grids, and graphs). To date, most approaches tokenize symbolic music as sequences of musical events, such as onsets, pitches, time shifts, or compound note events. This strategy is intuitive and has proven effective in Transformer-based models, but it treats the regularity of musical time implicitly: individual tokens may span different durations, resulting in non-uniform time progression. In this paper, we instead consider whether an alternative tokenization is possible, where a uniform-length musical step (e.g., a beat) serves as the basic unit. Specifically, we encode all events within a single time step at the same pitch as one token, and group tokens explicitly by time step, which resembles a sparse encoding of a piano-roll representation. We evaluate the proposed tokenization on music continuation and accompaniment generation tasks, comparing it with mainstream event-based methods. Results show improved musical quality and structural coherence, while additional analyses confirm higher efficiency and more effective capture of long-range patterns with the proposed tokenization.


翻译:将音乐分词以适配语言模型的通用框架是一项具有挑战性的任务,尤其是考虑到音乐可以呈现多种符号结构(如序列、网格和图)。迄今为止,大多数方法将符号音乐分词为一系列音乐事件,例如起始点、音高、时间偏移或复合音符事件。这种策略直观且已在基于Transformer的模型中证明有效,但它隐式地处理了音乐时间的规律性:各个词元可能跨越不同的持续时间,导致时间推进不均匀。本文转而探讨另一种分词的可能性,即采用均匀长度的音乐步长(如节拍)作为基本单位。具体而言,我们将同一时间步内所有具有相同音高的事件编码为一个词元,并显式地按时间步对词元进行分组,这类似于对钢琴卷帘表示进行稀疏编码。我们在音乐续写和伴奏生成任务上评估了所提出的分词方法,并与主流事件基方法进行了比较。结果表明,所提方法在音乐质量和结构连贯性上有所提升,而进一步分析证实,该分词方法具有更高的效率,并能更有效地捕捉长程模式。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
相关资讯
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员