Audio ControlNet for Fine-Grained Audio Generation and Editing - 专知论文

会员服务 ·

0

ControlNet · 事件 · 细粒度 · 粒度 · 音频生成 ·

Audio ControlNet for Fine-Grained Audio Generation and Editing

翻译：用于细粒度音频生成与编辑的Audio ControlNet

Haina Zhu,Yao Xiao,Xiquan Li,Ziyang Ma,Jianwei Yu,Bowen Zhang,Mingqi Yang,Xie Chen

We study the fine-grained text-to-audio (T2A) generation task. While recent models can synthesize high-quality audio from text descriptions, they often lack precise control over attributes such as loudness, pitch, and sound events. Unlike prior approaches that retrain models for specific control types, we propose to train ControlNet models on top of pre-trained T2A backbones to achieve controllable generation over loudness, pitch, and event roll. We introduce two designs, T2A-ControlNet and T2A-Adapter, and show that the T2A-Adapter model offers a more efficient structure with strong control ability. With only 38M additional parameters, T2A-Adapter achieves state-of-the-art performance on the AudioSet-Strong in both event-level and segment-level F1 scores. We further extend this framework to audio editing, proposing T2A-Editor for removing and inserting audio events at time locations specified by instructions. Models, code, dataset pipelines, and benchmarks will be released to support future research on controllable audio generation and editing.

翻译：本研究聚焦于细粒度文本到音频（T2A）生成任务。尽管现有模型能够根据文本描述合成高质量音频，但它们通常缺乏对响度、音高及声音事件等属性的精确控制。不同于以往针对特定控制类型重新训练模型的方法，我们提出在预训练的T2A主干网络上训练ControlNet模型，以实现对响度、音高和事件序列的可控生成。我们引入了两种设计：T2A-ControlNet与T2A-Adapter，并证明T2A-Adapter模型能以更高效的结构实现强大的控制能力。仅增加3800万参数，T2A-Adapter便在AudioSet-Strong数据集上取得了事件级别和片段级别F1分数的先进性能。我们进一步将该框架扩展至音频编辑领域，提出T2A-Editor模型，用于根据指令指定的时间位置移除或插入音频事件。我们将发布模型、代码、数据集流水线及基准测试，以支持未来可控音频生成与编辑的研究。

0

相关内容

ControlNet

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

专知会员服务

13+阅读 · 2025年2月3日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

低占空比传感器网络中实用高效的广播调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月16日

Low-Resource Guidance for Controllable Latent Audio Diffusion

Arxiv

0+阅读 · 3月4日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

Arxiv

0+阅读 · 2月17日

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models

Arxiv

0+阅读 · 2月15日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

BreathNet: Generalizable Audio Deepfake Detection via Breath-Cue-Guided Feature Refinement

Arxiv

0+阅读 · 2月14日

AudioToolAgent: An Agentic Framework for Audio-Language Models

Arxiv

0+阅读 · 2月13日

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning

Arxiv

0+阅读 · 2月11日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

专知会员服务

13+阅读 · 2025年2月3日

迈向可控语音合成：大语言模型时代的综述

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

相关论文

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月16日

Low-Resource Guidance for Controllable Latent Audio Diffusion

Arxiv

0+阅读 · 3月4日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

Arxiv

0+阅读 · 2月17日

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models

Arxiv

0+阅读 · 2月15日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

BreathNet: Generalizable Audio Deepfake Detection via Breath-Cue-Guided Feature Refinement

Arxiv

0+阅读 · 2月14日

AudioToolAgent: An Agentic Framework for Audio-Language Models

Arxiv

0+阅读 · 2月13日

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning

Arxiv

0+阅读 · 2月11日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

低占空比传感器网络中实用高效的广播调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员