Music style transfer blends source structure with reference style to enable personalized music creation. However, existing zero-shot methods often struggle to capture fine-grained audio nuances, relying on coarse text descriptions or requiring expensive task-specific training. We propose Stylus, a training-free framework that repurposes pretrained image diffusion models for music style transfer in the Mel-spectrogram domain. By treating audio as structured time-frequency images, Stylus manipulates self-attention by injecting style keys and values while preserving source structural queries. To ensure high fidelity, we introduce a phase-preserving reconstruction strategy to mitigate spectrogram inversion artifacts, alongside a classifier-free-guidance-inspired control for adjustable stylization. Extensive evaluations including 2,925 human ratings demonstrate that Stylus outperforms state-of-the-art baselines, achieving 34.1% higher content preservation and 25.7% better perceptual quality. Our work validates that generic image priors can be effectively leveraged for the training-free transformation of structured Mel-spectrograms. Code and materials are available at https://github.com/Sooyyoungg/Stylus.git.


翻译:音乐风格迁移通过融合源内容结构与参考风格,实现个性化音乐创作。然而,现有零样本方法往往难以捕捉细粒度音频特征——它们或依赖粗略的文本描述,或需要昂贵的任务特定训练。我们提出Stylus,一种无需训练的框架,将预训练图像扩散模型重用于梅尔频谱图域的音乐风格迁移。通过将音频视为结构化时频图像,Stylus在保持源结构查询向量的同时,通过注入风格键值对来操控自注意力机制。为确保高保真度,我们引入相位保持重建策略以减轻频谱图反演伪影,并采用基于无分类器引导思想的控制机制实现可调节的风格化程度。包含2,925份人工评分的广泛评估表明,Stylus优于现有最先进基线方法,内容保留率提升34.1%,感知质量提升25.7%。我们的工作验证了通用图像先验可有效应用于结构化梅尔频谱图的免训练变换。代码与资源见https://github.com/Sooyyoungg/Stylus.git。

0
下载
关闭预览

相关内容

基于神经网络的图像风格迁移算法综述
专知会员服务
12+阅读 · 2025年5月29日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
文本风格迁移研究综述
专知会员服务
35+阅读 · 2022年1月1日
专知会员服务
34+阅读 · 2021年10月8日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
风格迁移原理及tensorflow实现-附代码
机器学习研究会
19+阅读 · 2018年3月25日
图像风格迁移(Neural Style)简史
算法与数学之美
21+阅读 · 2018年2月4日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
基于神经网络的图像风格迁移算法综述
专知会员服务
12+阅读 · 2025年5月29日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
文本风格迁移研究综述
专知会员服务
35+阅读 · 2022年1月1日
专知会员服务
34+阅读 · 2021年10月8日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
相关资讯
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
风格迁移原理及tensorflow实现-附代码
机器学习研究会
19+阅读 · 2018年3月25日
图像风格迁移(Neural Style)简史
算法与数学之美
21+阅读 · 2018年2月4日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员