Text-to-music generation has advanced rapidly, with modern autoregressive and diffusion-based models producing convincing music from natural-language prompts. However, much of this progress relies on large-scale training data and external pretraining, making it difficult to isolate which design choices remain effective when data and pretraining are controlled. We study this setting using a Diffusion Transformer backbone with lyric and timbre conditioning, adapted to an instrumental-only text-to-music task in which the auxiliary lyric and timbre branches receive only degenerate conditioning signals. Through controlled ablations, we find that models retrained without these branches score lower across AudioBox aesthetics, LLM-as-judge, and human MOS, and that reinvesting the saved parameters as additional DiT depth recovers only marginally. This suggests the auxiliary branches may act as training-time architectural anchors whose contribution goes beyond their explicit conditioning content. We validate the same model through comparisons with external instrumental baselines and through our submission to the ICME 2026 Academic Text-to-Music (ATTM) Grand Challenge, where our Performance submission ranked first under both the objective metrics and the subsequent organizer-administered MOS over 35 raters, attaining the highest overall MOS across all challenge submissions, while our Efficiency submission was a finalist that tied for second under the objective metrics.


翻译:文本到音乐生成技术发展迅速,现代自回归和基于扩散的模型能够根据自然语言提示生成令人信服的音乐。然而,这一进展在很大程度上依赖于大规模训练数据和外部预训练,使得在控制数据和预训练条件时,难以孤立地判断哪些设计选择仍然有效。我们使用带有歌词和音色条件化的扩散变换器骨干网络来研究这一设定,并将其应用于仅限乐器的文本到音乐任务中,此时辅助的歌词和音色分支仅接收退化的条件信号。通过受控消融实验,我们发现:移除这些分支重新训练的模型在AudioBox美学评分、大语言模型评判和人类平均意见分上得分均较低;而将节省的参数作为额外的DiT深度重新投入,也只能带来微弱的性能提升。这表明辅助分支可能充当训练时的架构锚点,其贡献超越了显式的条件内容。我们通过与外部乐器基线的比较以及向ICME 2026学术文本到音乐挑战赛的提交,验证了同一模型。我们的性能提交在客观指标和后续由组织者管理的超过35名评分者的平均意见分中均排名第一,在所有挑战提交中获得了最高的总体平均意见分;而我们的效率提交作为决赛入围者,在客观指标上并列第二。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员