基于嵌入分类器的真实与合成超分辨率音频样本判别 (Discriminating real and synthetic super-resolved audio samples using embedding-based classifiers) - 专知论文

会员服务 ·

0

嵌入 · 超分 · 超分辨率 · 分类器 · 合成 ·

Discriminating real and synthetic super-resolved audio samples using embedding-based classifiers

翻译：基于嵌入分类器的真实与合成超分辨率音频样本判别

Mikhail Silaev,Konstantinos Drossos,Tuomas Virtanen

from arxiv, Accepted for publication in Workshop Proceedingsof the 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing

Generative adversarial networks (GANs) and diffusion models have recently achieved state-of-the-art performance in audio super-resolution (ADSR), producing perceptually convincing wideband audio from narrowband inputs. However, existing evaluations primarily rely on signal-level or perceptual metrics, leaving open the question of how closely the distributions of synthetic super-resolved and real wideband audio match. Here we address this problem by analyzing the separability of real and super-resolved audio in various embedding spaces. We consider both middle-band ($4\to 16$~kHz) and full-band ($16\to 48$~kHz) upsampling tasks for speech and music, training linear classifiers to distinguish real from synthetic samples based on multiple types of audio embeddings. Comparisons with objective metrics and subjective listening tests reveal that embedding-based classifiers achieve near-perfect separation, even when the generated audio attains high perceptual quality and state-of-the-art metric scores. This behavior is consistent across datasets and models, including recent diffusion-based approaches, highlighting a persistent gap between perceptual quality and true distributional fidelity in ADSR models.

翻译：生成对抗网络（GAN）和扩散模型近期在音频超分辨率（ADSR）领域取得了最先进的性能，能够从窄带输入生成感知上可信的宽带音频。然而，现有评估主要依赖于信号级或感知指标，尚未解决合成超分辨率音频与真实宽带音频的分布匹配程度问题。本文通过分析真实音频与超分辨率音频在不同嵌入空间中的可分离性来探讨此问题。我们考虑了语音和音乐的中频带（$4\to 16$~kHz）与全频带（$16\to 48$~kHz）上采样任务，训练线性分类器基于多种类型的音频嵌入来区分真实样本与合成样本。与客观指标和主观听音测试的比较表明，即使生成的音频具有高感知质量和最先进的指标得分，基于嵌入的分类器仍能实现近乎完美的区分。这一现象在不同数据集和模型（包括近期基于扩散的方法）中均保持一致，凸显了ADSR模型在感知质量与真实分布保真度之间存在的持续差距。

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

深度学习视频超分辨率综述

深度学习视频超分辨率综述

专知会员服务

14+阅读 · 2025年6月5日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

13+阅读 · 2025年4月24日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

基于深度学习的视频超分辨率重构进展综述

基于深度学习的视频超分辨率重构进展综述

专知会员服务

19+阅读 · 2022年3月7日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

专知会员服务

60+阅读 · 2019年11月16日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

人工智能前沿讲习班

15+阅读 · 2019年2月27日

从网络设计到实际应用，深度学习图像超分辨率综述

从网络设计到实际应用，深度学习图像超分辨率综述

机器之心

25+阅读 · 2019年2月24日

深度学习图像超分辨率最新综述：从模型到应用

深度学习图像超分辨率最新综述：从模型到应用

炼数成金订阅号

65+阅读 · 2019年2月20日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

【GAN】七个不容易被发现的生成对抗网络（GAN）用例；案例详解聚类、回归、分类算法

【GAN】七个不容易被发现的生成对抗网络（GAN）用例；案例详解聚类、回归、分类算法

产业智能官

62+阅读 · 2018年12月9日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

Synthetic Data Augmentation for Medical Audio Classification: A Preliminary Evaluation

Arxiv

0+阅读 · 2月3日

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation

Arxiv

0+阅读 · 1月21日

Audio Generation Through Score-Based Generative Modeling: Design Principles and Implementation

Arxiv

0+阅读 · 1月14日

Generative Adversarial Networks for Image Super-Resolution: A Survey

Arxiv

0+阅读 · 1月13日

Lightweight Resolution-Aware Audio Deepfake Detection via Cross-Scale Attention and Consistency Learning

Arxiv

0+阅读 · 1月10日

Interpretable All-Type Audio Deepfake Detection with Audio LLMs via Frequency-Time Reinforcement Learning

Arxiv

0+阅读 · 1月6日

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models

Arxiv

0+阅读 · 1月4日

STSR: High-Fidelity Speech Super-Resolution via Spectral-Transient Context Modeling

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

深度学习视频超分辨率综述

深度学习视频超分辨率综述

专知会员服务

14+阅读 · 2025年6月5日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

13+阅读 · 2025年4月24日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

基于深度学习的视频超分辨率重构进展综述

基于深度学习的视频超分辨率重构进展综述

专知会员服务

19+阅读 · 2022年3月7日

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

最新《深度学习视频超分》综述论文，30页pdf，Video Super Resolution Based on Deep Learning: A comprehensive survey

专知会员服务

25+阅读 · 2020年7月28日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

【超分辨率| 2019最新综述】图像超分辨率的深度学习，附PDF（Deep Learning for Image Super-resolution: A Survey）

专知会员服务

60+阅读 · 2019年11月16日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

人工智能前沿讲习班

15+阅读 · 2019年2月27日

从网络设计到实际应用，深度学习图像超分辨率综述

从网络设计到实际应用，深度学习图像超分辨率综述

机器之心

25+阅读 · 2019年2月24日

深度学习图像超分辨率最新综述：从模型到应用

深度学习图像超分辨率最新综述：从模型到应用

炼数成金订阅号

65+阅读 · 2019年2月20日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

【GAN】七个不容易被发现的生成对抗网络（GAN）用例；案例详解聚类、回归、分类算法

【GAN】七个不容易被发现的生成对抗网络（GAN）用例；案例详解聚类、回归、分类算法

产业智能官

62+阅读 · 2018年12月9日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

相关论文

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

Synthetic Data Augmentation for Medical Audio Classification: A Preliminary Evaluation

Arxiv

0+阅读 · 2月3日

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation

Arxiv

0+阅读 · 1月21日

Audio Generation Through Score-Based Generative Modeling: Design Principles and Implementation

Arxiv

0+阅读 · 1月14日

Generative Adversarial Networks for Image Super-Resolution: A Survey

Arxiv

0+阅读 · 1月13日

Lightweight Resolution-Aware Audio Deepfake Detection via Cross-Scale Attention and Consistency Learning

Arxiv

0+阅读 · 1月10日

Interpretable All-Type Audio Deepfake Detection with Audio LLMs via Frequency-Time Reinforcement Learning

Arxiv

0+阅读 · 1月6日

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models

Arxiv

0+阅读 · 1月4日

STSR: High-Fidelity Speech Super-Resolution via Spectral-Transient Context Modeling

Arxiv

0+阅读 · 2025年12月30日

相关基金

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员