Controllable text-to-audio generation aims to synthesize audio from textual descriptions while satisfying user-specified constraints, including event types, temporal sequences, and onset and offset timestamps. This enables precise control over both the content and temporal structure of the generated audio. Despite recent progress, existing methods still face inherent trade-offs among accurate temporal localization, open-vocabulary scalability, and practical efficiency. To address these challenges, we propose DegDiT, a novel dynamic event graph-guided diffusion transformer framework for open-vocabulary controllable audio generation. DegDiT encodes the events in the description as structured dynamic graphs. The nodes in each graph are designed to represent three aspects: semantic features, temporal attributes, and inter-event connections. A graph transformer is employed to integrate these nodes and produce contextualized event embeddings that serve as guidance for the diffusion model. To ensure high-quality and diverse training data, we introduce a quality-balanced data selection pipeline that combines hierarchical event annotation with multi-criteria quality scoring, resulting in a curated dataset with semantic diversity. Furthermore, we present consensus preference optimization, facilitating audio generation through consensus among multiple reward signals. Extensive experiments on AudioCondition, DESED, and AudioTime datasets demonstrate that DegDiT achieves state-of-the-art performances across a variety of objective and subjective evaluation metrics.


翻译:可控文本到音频生成旨在根据文本描述合成音频,同时满足用户指定的约束条件,包括事件类型、时间序列以及起始和结束时间戳。这使得对生成音频的内容和时间结构均能实现精确控制。尽管近期取得进展,现有方法在准确时间定位、开放词汇可扩展性和实际效率之间仍面临固有的权衡。为应对这些挑战,我们提出DegDiT,一种新颖的动态事件图引导扩散Transformer框架,用于开放词汇的可控音频生成。DegDiT将描述中的事件编码为结构化动态图。每个图中的节点被设计为表示三个方面:语义特征、时间属性和事件间连接关系。采用图Transformer整合这些节点,并生成上下文事件嵌入,作为扩散模型的引导信号。为确保高质量和多样化的训练数据,我们引入了质量平衡的数据选择流程,该流程结合了分层事件标注与多标准质量评分,从而构建出具有语义多样性的精选数据集。此外,我们提出了共识偏好优化方法,通过多个奖励信号之间的共识来促进音频生成。在AudioCondition、DESED和AudioTime数据集上进行的大量实验表明,DegDiT在各种客观和主观评估指标上均实现了最先进的性能。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《可控视频生成:综述》
专知会员服务
17+阅读 · 2025年7月24日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
【博士论文】可控图像与视频合成,201页pdf
专知会员服务
32+阅读 · 2024年9月17日
基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
23+阅读 · 2022年12月13日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 1月16日
VIP会员
相关VIP内容
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《可控视频生成:综述》
专知会员服务
17+阅读 · 2025年7月24日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
【博士论文】可控图像与视频合成,201页pdf
专知会员服务
32+阅读 · 2024年9月17日
基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
23+阅读 · 2022年12月13日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员