Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior - 专知论文

会员服务 ·

0

频域 · 相位 · 重建 · 频谱 · 计算效率 ·

Audio Inpainting in Time-Frequency Domain with Phase-Aware Prior

翻译：时频域音频修复中的相位感知先验方法

Peter Balušík,Pavel Rajmic

from arxiv, submitted to IEEE for review

We address the problem of time-frequency audio inpainting, where the goal is to fill missing spectrogram portions with reliable information. Despite recent advances, existing approaches still face limitations in both reconstruction quality and computational efficiency. To bridge this gap, we propose a method that utilizes a phase-aware signal prior which exploits estimates of the instantaneous frequency. An optimization problem is formulated and solved using the generalized Chambolle-Pock algorithm. The proposed method is evaluated against other time-frequency inpainting methods, specifically a deep-prior audio inpainting neural network and the autoregression-based approach known as Janssen-TF. Our proposed approach surpassed these methods by a large margin in the objective evaluation as well as in the conducted subjective listening test, improving the state of the art. In addition, the reconstructions are obtained with a substantially reduced computational cost compared to alternative methods.

翻译：本文研究时频域音频修复问题，其目标在于利用可靠信息填补缺失的频谱图区域。尽管近期研究已取得进展，现有方法在重建质量与计算效率方面仍存在局限。为弥补这一不足，我们提出一种利用相位感知信号先验的方法，该先验通过瞬时频率估计实现信号建模。我们构建了相应的优化问题，并采用广义Chambolle-Pock算法进行求解。通过与现有时频修复方法（特别是深度先验音频修复神经网络及基于自回归的Janssen-TF方法）进行对比实验，本方法在客观评价指标与主观听觉测试中均显著优于现有技术，实现了性能突破。此外，相较于其他方法，本方法能以显著降低的计算成本获得重建结果。

0

相关内容

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

时序知识图谱补全方法研究综述

时序知识图谱补全方法研究综述

专知会员服务

40+阅读 · 2024年3月22日

【NeurIPS2023】多样化的时空感知用于视频域泛化

【NeurIPS2023】多样化的时空感知用于视频域泛化

专知会员服务

21+阅读 · 2023年10月30日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

生成先验的信号恢复

生成先验的信号恢复

专知会员服务

22+阅读 · 2023年1月5日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

图像修复研究进展综述

专知会员服务

64+阅读 · 2021年3月9日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

图像修复研究进展综述

图像修复研究进展综述

专知

20+阅读 · 2021年3月9日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空域联合时频分解的海面慢速小目标检测新方法

国家自然科学基金

3+阅读 · 2015年12月31日

同轴相对论返波振荡器跨波段调频机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Spectrogram features for audio and speech analysis

Spectrogram features for audio and speech analysis

Arxiv

0+阅读 · 3月16日

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Arxiv

0+阅读 · 3月10日

Hypercomplex Phase Retrieval

Arxiv

0+阅读 · 2月27日

DTT-BSR: GAN-based DTTNet with RoPE Transformer Enhancement for Music Source Restoration

Arxiv

0+阅读 · 2月23日

Audio-Visual Continual Test-Time Adaptation without Forgetting

Arxiv

0+阅读 · 2月20日

Event Topology-based Visual Microphone for Amplitude and Frequency Reconstruction

Arxiv

0+阅读 · 2月18日

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Arxiv

0+阅读 · 2月15日

DisSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

Arxiv

0+阅读 · 2月13日

SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

时序知识图谱补全方法研究综述

时序知识图谱补全方法研究综述

专知会员服务

40+阅读 · 2024年3月22日

【NeurIPS2023】多样化的时空感知用于视频域泛化

【NeurIPS2023】多样化的时空感知用于视频域泛化

专知会员服务

21+阅读 · 2023年10月30日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

生成先验的信号恢复

生成先验的信号恢复

专知会员服务

22+阅读 · 2023年1月5日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

图像修复研究进展综述

专知会员服务

64+阅读 · 2021年3月9日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

图像修复研究进展综述

图像修复研究进展综述

专知

20+阅读 · 2021年3月9日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

Spectrogram features for audio and speech analysis

Spectrogram features for audio and speech analysis

Arxiv

0+阅读 · 3月16日

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Arxiv

0+阅读 · 3月10日

Hypercomplex Phase Retrieval

Arxiv

0+阅读 · 2月27日

DTT-BSR: GAN-based DTTNet with RoPE Transformer Enhancement for Music Source Restoration

Arxiv

0+阅读 · 2月23日

Audio-Visual Continual Test-Time Adaptation without Forgetting

Arxiv

0+阅读 · 2月20日

Event Topology-based Visual Microphone for Amplitude and Frequency Reconstruction

Arxiv

0+阅读 · 2月18日

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Arxiv

0+阅读 · 2月15日

DisSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

Arxiv

0+阅读 · 2月13日

SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation

Arxiv

0+阅读 · 2月4日

相关基金

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空域联合时频分解的海面慢速小目标检测新方法

国家自然科学基金

3+阅读 · 2015年12月31日

同轴相对论返波振荡器跨波段调频机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员