Pitch shifting has been an essential feature in singing voice production. However, conventional signal processing approaches exhibit well known trade offs such as formant shifts and robotic coloration that becomes more severe at larger transposition jumps. This paper targets high quality pitch shifting for singing by reframing it as a restoration problem: given an audio track that has been pitch shifted (and thus contaminated by artifacts), we recover a natural sounding performance while preserving its melody and timing. Specifically, we use a lightweight, mel space diffusion model driven by frame level acoustic features such as f0, volume, and content features. We construct training pairs in a self supervised manner by applying pitch shifts and reversing them to simulate realistic artifacts while retaining ground truth. On a curated singing set, the proposed approach substantially reduces pitch shift artifacts compared to representative classical baselines, as measured by both statistical metrics and pairwise acoustic measures. The results suggest that restoration based pitch shifting could be a viable approach towards artifact resistant transposition in vocal production workflows.


翻译:音高偏移一直是歌声制作中的关键功能。然而,传统的信号处理方法存在众所周知的权衡问题,如共振峰偏移和机械染色效应,这些问题在较大音程跨越时会变得更加严重。本文通过将音高偏移重新定义为修复问题,以实现高质量的歌声音高偏移:给定一个经过音高偏移处理(因而包含伪影)的音频轨道,我们在保持其旋律和时序的同时恢复出自然音质的演唱效果。具体而言,我们采用一个轻量级的梅尔谱空间扩散模型,该模型由帧级声学特征(如基频、音量和内容特征)驱动。我们通过施加音高偏移并反向操作来模拟真实伪影,同时保留原始参考音频,以此自监督方式构建训练数据对。在精选的歌声数据集上,通过统计指标和成对声学测量评估,所提方法相较于代表性经典基线模型显著降低了音高偏移伪影。结果表明,基于修复的音高偏移方法可能成为声乐制作工作流程中实现抗伪影音程转换的可行途径。

0
下载
关闭预览

相关内容

【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
53+阅读 · 2022年8月31日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员