Single-step Controllable Music Bandwidth Extension With Flow Matching - 专知论文

会员服务 ·

0

可控 · 带宽 · 音乐 · 退化 · 频谱 ·

Single-step Controllable Music Bandwidth Extension With Flow Matching

翻译：基于流匹配的单步可控音乐带宽扩展

Carlos Hernandez-Olivan,Hendrik Vincent Koops,Hao Hao Tan,Elio Quinton

from arxiv, Accepted at the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026

Audio restoration consists in inverting degradations of a digital audio signal to recover what would have been the pristine quality signal before the degradation occurred. This is valuable in contexts such as archives of music recordings, particularly those of precious historical value, for which a clean version may have been lost or simply does not exist. Recent work applied generative models to audio restoration, showing promising improvement over previous methods, and opening the door to the ability to perform restoration operations that were not possible before. However, making these models finely controllable remains a challenge. In this paper, we propose an extension of FLowHigh and introduce the Dynamic Spectral Contour (DSC) as a control signal for bandwidth extension via classifier-free guidance. Our experiments show competitive model performance, and indicate that DSC is a promising feature to support fine-grained conditioning.

翻译：音频修复旨在通过逆转数字音频信号的退化过程，以恢复其在退化发生前应有的原始质量信号。这在诸如音乐录音档案（尤其是具有珍贵历史价值的档案）等场景中具有重要意义，因为这些档案的洁净版本可能已经丢失或根本不存在。近期研究将生成模型应用于音频修复领域，显示出相较于传统方法的显著提升，并为实现以往无法完成的修复操作开辟了可能。然而，如何使这些模型实现精细可控仍是一个挑战。本文提出对FLowHigh模型的扩展，并引入动态频谱轮廓作为通过无分类器引导实现带宽扩展的控制信号。实验结果表明，该模型具有竞争力的性能，且动态频谱轮廓是支持细粒度条件控制的潜在有效特征。

0

相关内容

音退化问题：基于输入操控的鲁棒语音转换综述

音退化问题：基于输入操控的鲁棒语音转换综述

专知会员服务

8+阅读 · 2025年12月20日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

专知会员服务

12+阅读 · 2024年12月15日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

中科大等最新《基于扩散模型的图像恢复和增强》综述

中科大等最新《基于扩散模型的图像恢复和增强》综述

专知会员服务

37+阅读 · 2023年8月22日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

Underlay频谱共享方式下信号参数估计和调制识别的方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 2月12日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Towards Automatic Evaluation and High-Quality Pseudo-Parallel Dataset Construction for Audio Editing: A Human-in-the-Loop Method

Arxiv

0+阅读 · 2月1日

RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching

Arxiv

0+阅读 · 1月28日

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior

Arxiv

0+阅读 · 1月26日

Diffusion-Aided Bandwidth-Efficient Semantic Communication with Adaptive Requests

Arxiv

0+阅读 · 1月26日

MMEDIT: A Unified Framework for Multi-Type Audio Editing via Audio Language Model

Arxiv

0+阅读 · 1月19日

Self-supervised restoration of singing voice degraded by pitch shifting using shallow diffusion

Arxiv

0+阅读 · 1月15日

Diffusion-Aided Bandwidth-Efficient Semantic Communication with Adaptive Requests

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

2+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

音退化问题：基于输入操控的鲁棒语音转换综述

音退化问题：基于输入操控的鲁棒语音转换综述

专知会员服务

8+阅读 · 2025年12月20日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

专知会员服务

12+阅读 · 2024年12月15日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

中科大等最新《基于扩散模型的图像恢复和增强》综述

中科大等最新《基于扩散模型的图像恢复和增强》综述

专知会员服务

37+阅读 · 2023年8月22日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

相关论文

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 2月12日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

Towards Automatic Evaluation and High-Quality Pseudo-Parallel Dataset Construction for Audio Editing: A Human-in-the-Loop Method

Arxiv

0+阅读 · 2月1日

RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching

Arxiv

0+阅读 · 1月28日

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior

Arxiv

0+阅读 · 1月26日

Diffusion-Aided Bandwidth-Efficient Semantic Communication with Adaptive Requests

Arxiv

0+阅读 · 1月26日

MMEDIT: A Unified Framework for Multi-Type Audio Editing via Audio Language Model

Arxiv

0+阅读 · 1月19日

Self-supervised restoration of singing voice degraded by pitch shifting using shallow diffusion

Arxiv

0+阅读 · 1月15日

Diffusion-Aided Bandwidth-Efficient Semantic Communication with Adaptive Requests

Arxiv

0+阅读 · 1月14日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

Underlay频谱共享方式下信号参数估计和调制识别的方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员