We present ACE-Step v1.5, a highly efficient open-source music foundation model that brings commercial-grade generation to consumer hardware. On commonly used evaluation metrics, ACE-Step v1.5 achieves quality beyond most commercial music models while remaining extremely fast -- under 2 seconds per full song on an A100 and under 10 seconds on an RTX 3090. The model runs locally with less than 4GB of VRAM, and supports lightweight personalization: users can train a LoRA from just a few songs to capture their own style. At its core lies a novel hybrid architecture where the Language Model (LM) functions as an omni-capable planner: it transforms simple user queries into comprehensive song blueprints -- scaling from short loops to 10-minute compositions -- while synthesizing metadata, lyrics, and captions via Chain-of-Thought to guide the Diffusion Transformer (DiT). Uniquely, this alignment is achieved through intrinsic reinforcement learning relying solely on the model's internal mechanisms, thereby eliminating the biases inherent in external reward models or human preferences. Beyond standard synthesis, ACE-Step v1.5 unifies precise stylistic control with versatile editing capabilities -- such as cover generation, repainting, and vocal-to-BGM conversion -- while maintaining strict adherence to prompts across 50+ languages. This paves the way for powerful tools that seamlessly integrate into the creative workflows of music artists, producers, and content creators. The code, the model weights and the demo are available at: https://ace-step.github.io/ace-step-v1.5.github.io/


翻译:我们推出ACE-Step v1.5,这是一个高效的开源音乐基础模型,将商业级生成能力带到了消费级硬件上。在常用评估指标上,ACE-Step v1.5的质量超越了大多数商业音乐模型,同时保持极快的速度——在A100上生成整首歌曲不到2秒,在RTX 3090上不到10秒。该模型可在本地运行,所需显存低于4GB,并支持轻量级个性化:用户仅需几首歌曲即可训练一个LoRA来捕捉自己的风格。其核心是一个新颖的混合架构,其中语言模型(LM)充当全能规划器:它将简单的用户查询转化为全面的歌曲蓝图——从短循环到10分钟的作品——同时通过思维链合成元数据、歌词和描述,以指导扩散Transformer(DiT)。独特的是,这种对齐是通过仅依赖模型内部机制的内在强化学习实现的,从而消除了外部奖励模型或人类偏好所固有的偏差。除了标准合成外,ACE-Step v1.5将精确的风格控制与多功能编辑能力(如封面生成、重绘和人声转BGM转换)相统一,同时在50多种语言中严格遵循提示。这为强大工具铺平了道路,这些工具可以无缝集成到音乐艺术家、制作人和内容创作者的创意工作流程中。代码、模型权重和演示可在以下网址获取:https://ace-step.github.io/ace-step-v1.5.github.io/

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
敏捷作战部署(ACE)概念
专知会员服务
85+阅读 · 2024年7月4日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
敏捷作战部署(ACE)概念
专知会员服务
85+阅读 · 2024年7月4日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员