We introduce Mix2Morph, a text-to-audio diffusion model fine-tuned to perform sound morphing without a dedicated dataset of morphs. By finetuning on noisy surrogate mixes at higher diffusion timesteps, Mix2Morph yields stable, perceptually coherent morphs that convincingly integrate qualities of both sources. We specifically target sound infusions, a practically and perceptually motivated subclass of morphing in which one sound acts as the dominant primary source, providing overall temporal and structural behavior, while a secondary sound is infused throughout, enriching its timbral and textural qualities. Objective evaluations and listening tests show that Mix2Morph outperforms prior baselines and produces high-quality sound infusions across diverse categories, representing a step toward more controllable and concept-driven tools for sound design. Sound examples are available at https://anniejchu.github.io/mix2morph .


翻译:我们提出了Mix2Morph,这是一个经过微调的文本到音频扩散模型,用于在没有专门渐变数据集的情况下执行声音渐变。通过在较高扩散时间步上对含噪的代理混合音频进行微调,Mix2Morph能够生成稳定、感知上连贯的渐变结果,令人信服地融合了两个源音频的特性。我们特别针对声音注入这一子类进行研究,这是基于实践和感知动机定义的一种渐变类型:其中一个声音作为主导的主要源,提供整体的时间结构和行为框架,而另一个次要声音则被注入其中,丰富其音色和纹理品质。客观评估和听音测试表明,Mix2Morph优于现有基线方法,并能跨不同类别生成高质量的声音注入效果,这标志着向更可控、更概念驱动的声音设计工具迈进了一步。音频示例可在 https://anniejchu.github.io/mix2morph 获取。

0
下载
关闭预览

相关内容

混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关VIP内容
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员