RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis - 专知论文

会员服务 ·

0

GaN · 对抗 · 合成 · 泛化 · 语音合成 ·

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

翻译：RAF: 用于通用语音合成的相对论对抗反馈

Yongjoon Lee,Jung-Woo Choi

from arxiv, Accepted to Interspeech 2026 Long paper track. Code: https://github.com/infected4098/Relativistic-Adversarial-Feedback

We propose Relativistic Adversarial Feedback (RAF), a novel training objective for GAN vocoders that improves in-domain fidelity and generalization to unseen scenarios. Although modern GAN vocoders employ advanced architectures, their training objectives often fail to promote generalizable representations. RAF addresses this problem by leveraging speech self-supervised learning models to assist discriminators in evaluating sample quality, encouraging the generator to learn richer representations. Furthermore, we utilize relativistic pairing for real and fake waveforms to improve the modeling of the training data distribution. Experiments across multiple datasets show consistent gains in both objective and subjective metrics on GAN-based vocoders. Importantly, the RAF-trained BigVGAN-base outperforms the LSGAN-trained BigVGAN in perceptual quality using only 12\% of the parameters. Comparative studies further confirm the effectiveness of RAF as a training framework for GAN vocoders.

翻译：我们提出了相对论对抗反馈（RAF），这是一种针对GAN声码器的新型训练目标，可提升域内保真度以及对未见场景的泛化能力。尽管现代GAN声码器采用了先进的架构，但其训练目标往往难以促进可泛化的表示。RAF通过利用语音自监督学习模型辅助判别器评估样本质量，从而激励生成器学习更丰富的表征，解决了这一问题。此外，我们利用真实波形与虚假波形的相对配对来改进对训练数据分布的建模。跨多个数据集的实验表明，基于GAN的声码器在客观与主观指标上均取得了一致提升。重要的是，经过RAF训练的BigVGAN-base仅使用12%的参数，就在感知质量上超越了经LSGAN训练的BigVGAN。对比研究进一步证实了RAF作为GAN声码器训练框架的有效性。

0

相关内容

GaN

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

生成对抗网络及其在图像生成中的应用研究综述

专知会员服务

96+阅读 · 2021年2月6日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

专知

26+阅读 · 2017年10月11日

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

RanGTPase核质运输系统通过调控AIF核转移介导细胞凋亡的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

基于高重复频率掺镱光纤光梳的相干拉曼光谱成像技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

FeedEval: Pedagogically Aligned Evaluation of LLM-Generated Essay Feedback

Arxiv

0+阅读 · 6月16日

Time-Varying Audio Effect Modeling by End-to-End Adversarial Training

Arxiv

0+阅读 · 6月15日

Contrast-Informed Augmentation and Domain-Adversarial Training for Adult-to-Neonatal MR Reconstruction Generalization

Arxiv

0+阅读 · 6月11日

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

Arxiv

0+阅读 · 6月8日

RACT: Retrieval Augmented Column-Table Learning and Prediction for Multi-Table Schema Matching

Arxiv

0+阅读 · 6月5日

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

Arxiv

0+阅读 · 6月5日

A Unified and Reproducible Experimentation Framework for Speech Understanding

Arxiv

0+阅读 · 5月29日

Rationalize: Shared Semantic Reasoning for Human-AI Alignment

Arxiv

0+阅读 · 5月28日

PHALAR: Phasors for Learned Musical Audio Representations

Arxiv

0+阅读 · 5月26日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

生成对抗网络及其在图像生成中的应用研究综述

专知会员服务

96+阅读 · 2021年2月6日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

专知

26+阅读 · 2017年10月11日

相关论文

FeedEval: Pedagogically Aligned Evaluation of LLM-Generated Essay Feedback

Arxiv

0+阅读 · 6月16日

Time-Varying Audio Effect Modeling by End-to-End Adversarial Training

Arxiv

0+阅读 · 6月15日

Contrast-Informed Augmentation and Domain-Adversarial Training for Adult-to-Neonatal MR Reconstruction Generalization

Arxiv

0+阅读 · 6月11日

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

Arxiv

0+阅读 · 6月8日

RACT: Retrieval Augmented Column-Table Learning and Prediction for Multi-Table Schema Matching

Arxiv

0+阅读 · 6月5日

LARA: Latent Action Representation Alignment for Vision-Language-Action Models

Arxiv

0+阅读 · 6月5日

A Unified and Reproducible Experimentation Framework for Speech Understanding

Arxiv

0+阅读 · 5月29日

Rationalize: Shared Semantic Reasoning for Human-AI Alignment

Arxiv

0+阅读 · 5月28日

PHALAR: Phasors for Learned Musical Audio Representations

Arxiv

0+阅读 · 5月26日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

相关基金

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

RanGTPase核质运输系统通过调控AIF核转移介导细胞凋亡的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

基于高重复频率掺镱光纤光梳的相干拉曼光谱成像技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员