Recent progress in multimodal models has spurred rapid advances in audio understanding, generation, and editing. However, these capabilities are typically addressed by specialized models, leaving the development of a truly unified framework that can seamlessly integrate all three tasks underexplored. While some pioneering works have explored unifying audio understanding and generation, they often remain confined to specific domains. To address this, we introduce Audio-Omni, the first end-to-end framework to unify generation and editing across general sound, music, and speech domains, with integrated multi-modal understanding capabilities. Our architecture synergizes a frozen Multimodal Large Language Model for high-level reasoning with a trainable Diffusion Transformer for high-fidelity synthesis. To overcome the critical data scarcity in audio editing, we construct AudioEdit, a new large-scale dataset comprising over one million meticulously curated editing pairs. Extensive experiments demonstrate that Audio-Omni achieves state-of-the-art performance across a suite of benchmarks, outperforming prior unified approaches while achieving performance on par with or superior to specialized expert models. Beyond its core capabilities, Audio-Omni exhibits remarkable inherited capabilities, including knowledge-augmented reasoning generation, in-context generation, and zero-shot cross-lingual control for audio generation, highlighting a promising direction toward universal generative audio intelligence. The code, model, and dataset will be publicly released on https://zeyuet.github.io/Audio-Omni.


翻译:多模态模型的最新进展推动了音频理解、生成与编辑技术的快速进步。然而,这些能力通常由专用模型分别处理,真正能够无缝整合这三种任务的统一框架仍开发不足。尽管部分先驱工作已探索了音频理解与生成的统一,但它们往往局限于特定领域。为解决这一问题,我们提出Audio-Omni,这是首个端到端框架,将生成与编辑统一至通用声音、音乐和语音域,并集成多模态理解能力。我们的架构将冻结的多模态大语言模型用于高层推理,与可训练的扩散变换器用于高保真合成形成协同效应。为克服音频编辑领域关键的数据稀缺问题,我们构建了AudioEdit,一个包含超过百万条精心策划编辑对的新型大规模数据集。广泛实验表明,Audio-Omni在一系列基准测试中达到最先进性能,优于先前的统一方法,同时其表现与专用专家模型相当甚至更优。除核心能力外,Audio-Omni展现出显著的继承能力,包括知识增强推理生成、上下文内生成以及音频生成的零样本跨语言控制,为迈向通用生成式音频智能指明有前景的方向。代码、模型和数据集将公开发布于https://zeyuet.github.io/Audio-Omni。

0
下载
关闭预览

相关内容

音视频大数据基础模型全面综述
专知会员服务
6+阅读 · 5月7日
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
31+阅读 · 2025年5月6日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员