Long-context modeling is essential for symbolic music generation, since motif repetition and developmental variation can span thousands of musical events. However, practical composition and performance workflows frequently rely on resource-limited devices (e.g., electronic instruments and portable computers), making heavy memory and attention computation difficult to deploy. We introduce Depth-Structured Music Recurrence (DSMR), a recurrent long-context Transformer for full-piece symbolic music modeling that extends context beyond fixed-length excerpts via segment-level recurrence with detached cross-segment states, featuring a layer-wise memory-horizon schedule that budgets recurrent KV states across depth. DSMR is trained in a single left-to-right pass over each complete composition, akin to how a musician experiences it from beginning to end, while carrying recurrent cross-segment states forward. Within this recurrent framework, we systematically study how depth-wise horizon allocations affect optimization, best-checkpoint perplexity, and efficiency. By allocating different history-window lengths across layers while keeping the total recurrent-state budget fixed, DSMR creates depth-dependent temporal receptive fields within a recurrent attention stack without reducing compute depth. Our main instantiation is a two-scale DSMR schedule that allocates long history windows to lower layers and a uniform short window to the remaining layers. Experiments on the piano performance dataset MAESTRO demonstrate that two-scale DSMR provides a practical quality--efficiency recipe for full-length long-context symbolic music modeling with recurrent attention under limited computational resources.


翻译:长上下文建模对于符号音乐生成至关重要,因为动机重复与发展性变奏可能跨越数千个音乐事件。然而,实际作曲与演奏工作流常依赖于资源受限设备(如电子乐器和便携式计算机),使得重型内存与注意力计算难以部署。我们提出深度结构化音乐循环(DSMR),这是一种面向全曲符号音乐建模的循环长上下文Transformer,通过具有解耦跨片段状态的片段级循环机制将上下文扩展至固定长度片段之外,其核心特征是采用层间记忆时域调度策略,在深度维度上对循环键值状态进行预算分配。DSMR通过单次从左到右遍历完整乐曲进行训练,类似于音乐家从始至终体验作品的过程,同时持续传递跨片段循环状态。在此循环框架内,我们系统研究了深度维度时域分配如何影响优化过程、最佳检查点困惑度及计算效率。通过在保持总循环状态预算不变的前提下,为不同层分配差异化的历史窗口长度,DSMR在循环注意力堆栈中构建了深度依赖的时间感受野,且不降低计算深度。我们的主要实现方案是采用双尺度DSMR调度策略:为底层分配长历史窗口,其余层则采用统一的短窗口。在钢琴演奏数据集MAESTRO上的实验表明,双尺度DSMR为有限计算资源下采用循环注意力的全长符号音乐长上下文建模提供了实用化的质量-效率解决方案。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
最新《注意力机制与深度学习结合》综述论文
专知会员服务
76+阅读 · 2021年6月17日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
18+阅读 · 2017年11月5日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
7+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 4月7日
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
7+阅读 · 4月7日
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
9+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员