Generating symphonic music requires simultaneously managing high-level structural form and dense, multi-track orchestration. Existing symbolic models often struggle with a "complexity-control imbalance", in which scaling bottlenecks limit long-term granular steerability. We present SymphonyGen, a 3D hierarchical framework for contemporary cinematic orchestration. SymphonyGen employs a cascading decoder architecture that decomposes the Bar, Track, and Event axes, improving computational efficiency and scalability over conventional 1D or 2D models. We introduce "short-score" conditioning via a beat-quantized multi-voice harmony skeleton, enabling outline control while preserving textural diversity. The model is further refined using Group Relative Policy Optimization (GRPO) with a cross-modal audio-perceptual reward, aligning symbolic output with modern acoustic expectations. Additionally, we implement a dissonance-averse sampling algorithm to suppress unintended tonal clashes during inference. Objective evaluations show that both reinforcement learning and dissonance-averse sampling effectively enhance harmonic cleanliness while maintaining melodic expression. Subjective evaluations demonstrate that SymphonyGen outperforms baselines in musicality and preference for orchestral music generation. Demo page: https://symphonygen.github.io/


翻译:生成交响乐需要同时管理高层级结构形式与密集的多轨配器。现有符号模型常陷入"复杂度-可控性失衡"困境,其规模瓶颈限制了长程粒度化操控能力。本文提出SymphonyGen——面向当代电影配乐的三维分层框架。该框架采用级联解码器架构,对小节、音轨与事件三个维度进行解耦,相较传统一维或二维模型提升了计算效率与可扩展性。我们通过节拍量化的多声部和声骨架引入"短谱"条件约束,在保持织体多样性的同时实现轮廓控制。模型进一步采用组相对策略优化(GRPO)结合跨模态听觉感知奖励函数进行精调,使符号输出符合现代音响预期。此外,我们设计了避 dissonance 采样式算法,在推理过程中抑制非预期音调冲突。客观评估表明,强化学习与避 dissonance 采样均可有效提升和声纯净度,同时保持旋律表现力。主观评估显示,SymphonyGen在管弦乐生成的音乐性与偏好度方面均优于基线模型。演示页面:https://symphonygen.github.io/

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
【斯坦福博士论文】可控生成与编辑的三维神经表示,
专知会员服务
20+阅读 · 2024年12月8日
【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成
专知会员服务
17+阅读 · 2021年10月23日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
【斯坦福博士论文】可控生成与编辑的三维神经表示,
专知会员服务
20+阅读 · 2024年12月8日
【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成
专知会员服务
17+阅读 · 2021年10月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员