Recent commercial systems such as Suno demonstrate strong capabilities in long-form song generation, while academic research remains largely non-reproducible due to the lack of publicly available training data, hindering fair comparison and progress. To this end, we release a fully open-source system for long-form song generation with fine-grained style conditioning, including a licensed synthetic dataset, training and evaluation pipelines, and Muse, an easy-to-deploy song generation model. The dataset consists of 116k fully licensed synthetic songs with automatically generated lyrics and style descriptions paired with audio synthesized by SunoV5. We train Muse via single-stage supervised finetuning of a Qwen-based language model extended with discrete audio tokens using MuCodec, without task-specific losses, auxiliary objectives, or additional architectural components. Our evaluations find that although Muse is trained with a modest data scale and model size, it achieves competitive performance on phoneme error rate, text--music style similarity, and audio aesthetic quality, while enabling controllable segment-level generation across different musical structures. All data, model weights, and training and evaluation pipelines will be publicly released, paving the way for continued progress in controllable long-form song generation research. The project repository is available at https://github.com/yuhui1038/Muse.


翻译:近期如Suno等商业系统在长篇歌曲生成方面展现出强大能力,而学术研究由于缺乏公开可用的训练数据,大多难以复现,这阻碍了公平比较与研究进展。为此,我们发布了一个完全开源的长篇歌曲生成系统,具备细粒度风格条件控制能力,包含经授权的合成数据集、训练与评估流程,以及易于部署的歌曲生成模型Muse。该数据集包含11.6万首完全授权的合成歌曲,每首歌曲均配有自动生成的歌词和风格描述,并与SunoV5合成的音频配对。我们通过单阶段监督微调的方式训练Muse,该模型基于Qwen语言模型扩展,利用MuCodec添加离散音频标记,无需任务特定损失、辅助目标或额外架构组件。评估结果表明,尽管Muse在数据规模和模型体量上较为适中,但在音素错误率、文本-音乐风格相似度和音频美学质量方面均取得了有竞争力的性能,同时能够实现跨不同音乐结构的可控片段级生成。所有数据、模型权重以及训练与评估流程将全部公开,为可控长篇歌曲生成研究的持续进展铺平道路。项目仓库地址为https://github.com/yuhui1038/Muse。

0
下载
关闭预览

相关内容

百度基于异构互联知识图谱的多模内容创作技术
专知会员服务
52+阅读 · 2022年6月7日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员