Time-Varying Audio Effect Modeling by End-to-End Adversarial Training - 专知论文

会员服务 ·

0

时变 · 对抗 · 调制 · 端到端 · 对抗训练 ·

Time-Varying Audio Effect Modeling by End-to-End Adversarial Training

翻译：时变音频效果建模的端到端对抗训练

Yann Bourdin,Pierrick Legrand,Fanny Roche

from arxiv, (03/2026) Accepted to the Journal of the Audio Engineering Society (JAES). Accompanying website: https://ybourdin.github.io/sptvmod

Deep learning has become a standard approach for the modeling of audio effects, yet strictly black-box modeling remains problematic for time-varying systems. Unlike time-invariant effects, training models on devices with internal modulation typically requires the recording or extraction of control signals to ensure the time-alignment required by standard loss functions. This paper introduces a Generative Adversarial Network (GAN) framework to model such effects using only input-output audio recordings, without requiring a modulation signal extraction. We propose a convolutional-recurrent architecture trained via a two-stage strategy: an initial adversarial phase allows the model to learn the distribution of the modulation behavior without strict phase constraints, followed by a supervised fine-tuning phase where a State Prediction Network (SPN) estimates the initial internal states required to synchronize the model with the target. Additionally, a new metric based on chirp-train signals is developed to quantify modulation accuracy. Experiments modeling a vintage hardware phaser demonstrate the method's ability to capture time-varying dynamics in a fully black-box context.

翻译：深度学习已成为音频效果建模的标准方法，但对于时变系统而言，严格的黑箱建模仍存在问题。与时间不变的效果不同，对具有内部调制机制的器件进行模型训练通常需要记录或提取控制信号，以确保标准损失函数所需的时间对齐性。本文提出一种生成对抗网络（GAN）框架，仅利用输入输出音频记录即可对此类效果进行建模，而无需提取调制信号。我们提出一种通过两阶段策略训练的卷积循环架构：初始对抗阶段使模型能够在无严格相位约束的条件下学习调制行为的分布，随后进入监督微调阶段，其中状态预测网络（SPN）用于估计模型与目标同步所需的初始内部状态。此外，还开发了一种基于啁啾序列信号的新指标用于量化调制精度。针对复古硬件移相器的建模实验表明，该方法能够在完全黑箱环境下捕捉时变动态特性。

0

相关内容

《改变地面电子战训练：通过综合频谱捕获和电子战模拟为小单元训练带来真实感》最新99页

《改变地面电子战训练：通过综合频谱捕获和电子战模拟为小单元训练带来真实感》最新99页

专知会员服务

46+阅读 · 2024年10月23日

《基于条件生成式对抗网络的信道估计》2023最新36页技术报告

《基于条件生成式对抗网络的信道估计》2023最新36页技术报告

专知会员服务

26+阅读 · 2023年11月2日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【干货书】深度学习与生成对抗网络：理论与应用，223页pdf

【干货书】深度学习与生成对抗网络：理论与应用，223页pdf

专知会员服务

79+阅读 · 2023年3月20日

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

专知会员服务

45+阅读 · 2023年2月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

专知会员服务

70+阅读 · 2020年8月21日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

资源 | 《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作（附下载）

资源 | 《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作（附下载）

THU数据派

59+阅读 · 2019年4月12日

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

专知

55+阅读 · 2019年4月7日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

【干货】生成式对抗网络资料荟萃（原理/教程/报告/论文/实战/资料库）

【干货】生成式对抗网络资料荟萃（原理/教程/报告/论文/实战/资料库）

GAN生成式对抗网络

12+阅读 · 2018年9月19日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于时域近场声全息的旋转机械非稳态声场重构与故障诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于时滞的离散终端滑模控制系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

Arxiv

0+阅读 · 6月16日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

From Physics to Representation: Audio Learning with Synthetic Pre-training via Procedural Generation

Arxiv

0+阅读 · 6月11日

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Arxiv

0+阅读 · 5月29日

Exploring How Audio Effects Alter Emotion with Foundation Models

Arxiv

0+阅读 · 5月21日

Global Rotation Equivariant Phase Modeling for Speech Enhancement with Deep Magnitude-Phase Interaction

Arxiv

0+阅读 · 5月15日

AaSP: Aliasing-aware Self-Supervised Pre-Training for Audio Spectrogram Transformers

Arxiv

0+阅读 · 5月14日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《改变地面电子战训练：通过综合频谱捕获和电子战模拟为小单元训练带来真实感》最新99页

《改变地面电子战训练：通过综合频谱捕获和电子战模拟为小单元训练带来真实感》最新99页

专知会员服务

46+阅读 · 2024年10月23日

《基于条件生成式对抗网络的信道估计》2023最新36页技术报告

《基于条件生成式对抗网络的信道估计》2023最新36页技术报告

专知会员服务

26+阅读 · 2023年11月2日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【干货书】深度学习与生成对抗网络：理论与应用，223页pdf

【干货书】深度学习与生成对抗网络：理论与应用，223页pdf

专知会员服务

79+阅读 · 2023年3月20日

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

专知会员服务

45+阅读 · 2023年2月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

专知会员服务

70+阅读 · 2020年8月21日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

资源 | 《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作（附下载）

资源 | 《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作（附下载）

THU数据派

59+阅读 · 2019年4月12日

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

【GAN新书】《GAN实战：生成对抗网络深度学习》牛津大学Jakub著作(附下载)

专知

55+阅读 · 2019年4月7日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

【干货】生成式对抗网络资料荟萃（原理/教程/报告/论文/实战/资料库）

【干货】生成式对抗网络资料荟萃（原理/教程/报告/论文/实战/资料库）

GAN生成式对抗网络

12+阅读 · 2018年9月19日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

相关论文

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

Arxiv

0+阅读 · 6月16日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

From Physics to Representation: Audio Learning with Synthetic Pre-training via Procedural Generation

Arxiv

0+阅读 · 6月11日

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Arxiv

0+阅读 · 5月29日

Exploring How Audio Effects Alter Emotion with Foundation Models

Arxiv

0+阅读 · 5月21日

Global Rotation Equivariant Phase Modeling for Speech Enhancement with Deep Magnitude-Phase Interaction

Arxiv

0+阅读 · 5月15日

AaSP: Aliasing-aware Self-Supervised Pre-Training for Audio Spectrogram Transformers

Arxiv

0+阅读 · 5月14日

AudioMosaic: Contrastive Masked Audio Representation Learning

Arxiv

0+阅读 · 5月14日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于时域近场声全息的旋转机械非稳态声场重构与故障诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于时滞的离散终端滑模控制系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员