While being disturbed by environmental noises, the acoustic masking technique is a conventional way to reduce the annoyance in audio engineering that seeks to cover up the noises with other dominant yet less intrusive sounds. However, misalignment between the dominant sound and the noise-such as mismatched downbeats-often requires an excessive volume increase to achieve effective masking. Motivated by recent advances in cross-modal generation, in this work, we introduce an alternative method to acoustic masking, aiming to reduce the noticeability of environmental noises by blending them into personalized music generated based on user-provided text prompts. Following the paradigm of music generation using mel-spectrogram representations, we propose a Blending Noises into Personalized Music (BNMusic) framework with two key stages. The first stage synthesizes a complete piece of music in a mel-spectrogram representation that encapsulates the musical essence of the noise. In the second stage, we adaptively amplify the generated music segment to further reduce noise perception and enhance the blending effectiveness, while preserving auditory quality. Our experiments with comprehensive evaluations on MusicBench, EPIC-SOUNDS, and ESC-50 demonstrate the effectiveness of our framework, highlighting the ability to blend environmental noise with rhythmically aligned, adaptively amplified, and enjoyable music segments, minimizing the noticeability of the noise, thereby improving overall acoustic experiences. Project page: https://d-fas.github.io/BNMusic_page/.


翻译:在受到环境噪声干扰时,声学掩蔽技术是音频工程中一种传统的降噪方法,旨在用其他更具主导性但侵扰性较低的声音来覆盖噪声。然而,主导声与噪声之间的不匹配——例如节拍错位——通常需要过度增大音量才能实现有效掩蔽。受跨模态生成领域最新进展的启发,本文提出了一种替代声学掩蔽的方法,旨在通过将环境噪声融入基于用户提供的文本提示生成的个性化音乐中,从而降低噪声的可察觉性。遵循使用梅尔频谱图表示进行音乐生成的范式,我们提出了一个将噪声融入个性化音乐(BNMusic)的框架,该框架包含两个关键阶段。第一阶段合成一首完整的音乐,其梅尔频谱图表示封装了噪声的音乐本质。在第二阶段,我们自适应地放大生成的音乐片段,以进一步降低噪声感知并增强融合效果,同时保持听觉质量。我们在MusicBench、EPIC-SOUNDS和ESC-50数据集上进行的综合评估实验证明了我们框架的有效性,突显了其能够将环境噪声与节奏对齐、自适应放大且令人愉悦的音乐片段相融合,从而最小化噪声的可察觉性,进而提升整体听觉体验。项目页面:https://d-fas.github.io/BNMusic_page/。

0
下载
关闭预览

相关内容

【WWW2025】释放大型语言模型在去噪推荐中的强大能力
专知会员服务
13+阅读 · 2025年2月18日
去噪:有监督、自监督和无监督,57页ppt
专知会员服务
59+阅读 · 2023年5月3日
去噪扩散概率模型,46页ppt
专知会员服务
63+阅读 · 2023年1月4日
专知会员服务
43+阅读 · 2021年8月30日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关资讯
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员