PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement - 专知论文

会员服务 ·

0

语音增强 · Analysis · 损失 · MoDELS · 可辨认的 ·

2023 年 2 月 16 日

PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

翻译：PAAPLoss：一种面向语音增强的语音学对齐声学参数损失函数

Muqiao Yang,Joseph Konan,David Bick,Yunyang Zeng,Shuo Han,Anurag Kumar,Shinji Watanabe,Bhiksha Raj

from arxiv, Accepted at ICASSP 2023

Despite rapid advancement in recent years, current speech enhancement models often produce speech that differs in perceptual quality from real clean speech. We propose a learning objective that formalizes differences in perceptual quality, by using domain knowledge of acoustic-phonetics. We identify temporal acoustic parameters -- such as spectral tilt, spectral flux, shimmer, etc. -- that are non-differentiable, and we develop a neural network estimator that can accurately predict their time-series values across an utterance. We also model phoneme-specific weights for each feature, as the acoustic parameters are known to show different behavior in different phonemes. We can add this criterion as an auxiliary loss to any model that produces speech, to optimize speech outputs to match the values of clean speech in these features. Experimentally we show that it improves speech enhancement workflows in both time-domain and time-frequency domain, as measured by standard evaluation metrics. We also provide an analysis of phoneme-dependent improvement on acoustic parameters, demonstrating the additional interpretability that our method provides. This analysis can suggest which features are currently the bottleneck for improvement.

翻译：尽管近年来语音增强模型取得了快速进展，但当前模型生成的语音在感知质量上仍常与真实纯净语音存在差异。我们提出了一种利用声学-语音学领域知识形式化感知质量差异的学习目标。我们识别出诸如频谱倾斜、频谱通量、微光等非可微的时间域声学参数，并开发了一种神经网络估计器，能够准确预测这些参数在整段语音中的时序值。我们还为每个特征建模了音素级权重，因为不同音素中声学参数的表现存在已知差异。该准则可作为辅助损失函数添加到任何生成语音的模型中，通过优化语音输出使其在这些特征参数上与纯净语音的值匹配。实验表明，无论是在时域还是时频域，该方法均能通过标准评估指标改善语音增强流程。我们还提供了基于音素的声学参数改进分析，展示了本方法带来的额外可解释性，这种分析有助于识别当前制约性能提升的瓶颈特征。

0

相关内容

语音增强

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

Anderson型多酸的不对称修饰及可控组装研究

国家自然科学基金

1+阅读 · 2014年12月31日

c-MET信号通路与肝癌耐药机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

贵金属微纳球壳阵列构筑、表面增强Raman散射性能及对多氯联苯的检测

国家自然科学基金

0+阅读 · 2013年12月31日

石墨烯纳米天线红外光谱增强机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于1,6-二氮杂萘骨架的新型c-Met激酶小分子抑制剂的发现和结构功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

配体的原位合成制备功能无机配位聚合物材料

国家自然科学基金

0+阅读 · 2012年12月31日

环糊精酯化交联天然生物质材料强化吸附水中典型HOCs的机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下数据安全基础问题研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于有机-无机原位电化学杂化的聚苯胺一维生长控制及传感性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

多酸-配位聚合物互为主客体的结构化学

国家自然科学基金

0+阅读 · 2008年12月31日

Deep Reinforcement Learning with Importance Weighted A3C for QoE enhancement in Video Delivery Services

Arxiv

0+阅读 · 2023年4月10日

Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition

Arxiv

0+阅读 · 2023年4月10日

Parameter-Expanded ECME Algorithms for Logistic and Penalized Logistic Regression

Arxiv

0+阅读 · 2023年4月8日

Large language models effectively leverage document-level context for literary translation, but critical errors persist

Arxiv

0+阅读 · 2023年4月6日

Training a Two Layer ReLU Network Analytically

Arxiv

0+阅读 · 2023年4月6日

Logistic-Normal Likelihoods for Heteroscedastic Label Noise in Classification

Arxiv

0+阅读 · 2023年4月6日

A practical model-based segmentation approach for improved activation detection in single-subject functional Magnetic Resonance Imaging studies

Arxiv

0+阅读 · 2023年4月4日

Tunable Convolutions with Parametric Multi-Loss Optimization

Arxiv

0+阅读 · 2023年4月3日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

VIP会员

文章信息

相关主题

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

4+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

5+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

11+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

9+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

12+阅读 · 7月26日

相关VIP内容

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

相关论文

Deep Reinforcement Learning with Importance Weighted A3C for QoE enhancement in Video Delivery Services

Arxiv

0+阅读 · 2023年4月10日

Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition

Arxiv

0+阅读 · 2023年4月10日

Parameter-Expanded ECME Algorithms for Logistic and Penalized Logistic Regression

Arxiv

0+阅读 · 2023年4月8日

Large language models effectively leverage document-level context for literary translation, but critical errors persist

Arxiv

0+阅读 · 2023年4月6日

Training a Two Layer ReLU Network Analytically

Arxiv

0+阅读 · 2023年4月6日

Logistic-Normal Likelihoods for Heteroscedastic Label Noise in Classification

Arxiv

0+阅读 · 2023年4月6日

A practical model-based segmentation approach for improved activation detection in single-subject functional Magnetic Resonance Imaging studies

Arxiv

0+阅读 · 2023年4月4日

Tunable Convolutions with Parametric Multi-Loss Optimization

Arxiv

0+阅读 · 2023年4月3日

Balanced Multimodal Learning via On-the-fly Gradient Modulation

Arxiv

13+阅读 · 2022年3月29日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

相关基金

Anderson型多酸的不对称修饰及可控组装研究

国家自然科学基金

1+阅读 · 2014年12月31日

c-MET信号通路与肝癌耐药机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

贵金属微纳球壳阵列构筑、表面增强Raman散射性能及对多氯联苯的检测

国家自然科学基金

0+阅读 · 2013年12月31日

石墨烯纳米天线红外光谱增强机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于1,6-二氮杂萘骨架的新型c-Met激酶小分子抑制剂的发现和结构功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

配体的原位合成制备功能无机配位聚合物材料

国家自然科学基金

0+阅读 · 2012年12月31日

环糊精酯化交联天然生物质材料强化吸附水中典型HOCs的机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下数据安全基础问题研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于有机-无机原位电化学杂化的聚苯胺一维生长控制及传感性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

多酸-配位聚合物互为主客体的结构化学

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员