Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation - 专知论文

会员服务 ·

0

合成 · 质量评估 · 嵌入 · 嵌入表 · 表示 ·

Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation

翻译：理解用于合成语音质量评估的Fréchet语音距离

June-Woo Kim,Dhruv Agarwal,Federica Cerina

from arxiv, accepted to ICASSP 2026

Objective evaluation of synthetic speech quality remains a critical challenge. Human listening tests are the gold standard, but costly and impractical at scale. Fréchet Distance has emerged as a promising alternative, yet its reliability depends heavily on the choice of embeddings and experimental settings. In this work, we comprehensively evaluate Fréchet Speech Distance (FSD) and its variant Speech Maximum Mean Discrepancy (SMMD) under varied embeddings and conditions. We further incorporate human listening evaluations alongside TTS intelligibility and synthetic-trained ASR WER to validate the perceptual relevance of these metrics. Our findings show that WavLM Base+ features yield the most stable alignment with human ratings. While FSD and SMMD cannot fully replace subjective evaluation, we show that they can serve as complementary, cost-efficient, and reproducible measures, particularly useful when large-scale or direct listening assessments are infeasible. Code is available at https://github.com/kaen2891/FrechetSpeechDistance.

翻译：合成语音质量的客观评估仍然是一个关键挑战。人类听力测试是黄金标准，但成本高昂且难以大规模实施。Fréchet距离已成为一种有前景的替代方案，但其可靠性在很大程度上取决于嵌入表示和实验设置的选择。在本工作中，我们全面评估了在不同嵌入表示和条件下Fréchet语音距离及其变体Speech Maximum Mean Discrepancy。我们进一步结合了人类听力评估、TTS可懂度以及基于合成语音训练的ASR词错误率，以验证这些指标的感知相关性。我们的研究结果表明，WavLM Base+特征能够产生与人类评分最稳定的对应关系。虽然FSD和SMMD无法完全替代主观评估，但我们证明它们可以作为补充性、成本效益高且可复现的度量标准，特别是在大规模或直接听力评估不可行时尤为有用。代码可在https://github.com/kaen2891/FrechetSpeechDistance获取。

0

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

专知会员服务

63+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【教程】语音识别中的End-to-End模型教程（附178页PDF全文下载）

【教程】语音识别中的End-to-End模型教程（附178页PDF全文下载）

专知

24+阅读 · 2018年11月21日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

FGF-1及其 3'UTR区SNP多态性与噪声性听力损失关系及机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集成化声表面结构固体板的耦合与相互作用特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

Diffusion-based Signal Refiner for Speech Enhancement and Separation

Arxiv

0+阅读 · 2月10日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

Arxiv

0+阅读 · 1月29日

Rethinking Discrete Speech Representation Tokens for Accent Generation

Arxiv

0+阅读 · 1月27日

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation

Arxiv

0+阅读 · 1月27日

SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment

Arxiv

0+阅读 · 1月27日

Geneses: Unified Generative Speech Enhancement and Separation

Arxiv

0+阅读 · 1月26日

QASTAnet: A DNN-based Quality Metric for Spatial Audio

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

1+阅读 · 今天16:07

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

0+阅读 · 今天16:04

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

5+阅读 · 今天14:49

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

8+阅读 · 今天14:36

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

5+阅读 · 今天14:29

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

2+阅读 · 今天14:22

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

3+阅读 · 今天14:12

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

14+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

8+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

20+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

16+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

7+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

12+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

8+阅读 · 6月1日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

专知会员服务

63+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【教程】语音识别中的End-to-End模型教程（附178页PDF全文下载）

【教程】语音识别中的End-to-End模型教程（附178页PDF全文下载）

专知

24+阅读 · 2018年11月21日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关论文

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

Diffusion-based Signal Refiner for Speech Enhancement and Separation

Arxiv

0+阅读 · 2月10日

Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+

Arxiv

0+阅读 · 2月9日

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

Arxiv

0+阅读 · 1月29日

Rethinking Discrete Speech Representation Tokens for Accent Generation

Arxiv

0+阅读 · 1月27日

SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation

Arxiv

0+阅读 · 1月27日

SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment

Arxiv

0+阅读 · 1月27日

Geneses: Unified Generative Speech Enhancement and Separation

Arxiv

0+阅读 · 1月26日

QASTAnet: A DNN-based Quality Metric for Spatial Audio

Arxiv

0+阅读 · 1月19日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

FGF-1及其 3'UTR区SNP多态性与噪声性听力损失关系及机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集成化声表面结构固体板的耦合与相互作用特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员