Training a unified model integrating video-to-audio (V2A), text-to-audio (T2A), and joint video-text-to-audio (VT2A) generation offers significant application flexibility, yet faces two unexplored foundational challenges: (1) the scarcity of high-quality audio captions with tight V-A-T alignment, leading to severe semantic conflict between multimodal conditions, and (2) cross-task and intra-task competition, manifesting as an adverse V2A-T2A performance trade-off and modality bias in the VT2A task. First, to address data scarcity, we introduce SoundAtlas, a large-scale dataset (470k pairs) that significantly outperforms existing benchmarks and even human experts in quality. Powered by a novel agentic pipeline, it integrates Vision-to-Language Compression to mitigate visual bias of MLLMs, a Junior-Senior Agent Handoff for a 5$\times$ cost reduction, and rigorous Post-hoc Filtering to ensure fidelity. Consequently, SoundAtlas delivers semantically rich and temporally detailed captions with tight V-A-T alignment. Second, we propose Omni2Sound, a unified VT2A diffusion model supporting flexible input modalities. To resolve the inherent cross-task and intra-task competition, we design a three-stage multi-task progressive training schedule that converts cross-task competition into joint optimization and mitigates modality bias in the VT2A task, maintaining both audio-visual alignment and off-screen audio generation faithfulness. Finally, we construct VGGSound-Omni, a comprehensive benchmark for unified evaluation, including challenging off-screen tracks. With a standard DiT backbone, Omni2Sound achieves unified SOTA performance across all three tasks within a single model, demonstrating strong generalization across benchmarks with heterogeneous input conditions.


翻译:训练一个统一模型来整合视频到音频生成、文本到音频生成以及视频-文本联合到音频生成任务,虽然能提供显著的应用灵活性,但面临两个尚未探索的基础性挑战:(1)缺乏具有紧密视频-音频-文本对齐的高质量音频描述,导致多模态条件间出现严重的语义冲突;(2)跨任务与任务内部的竞争,表现为视频到音频生成与文本到音频生成性能的不良权衡,以及视频-文本到音频生成任务中的模态偏置。首先,为解决数据稀缺问题,我们提出SoundAtlas,一个大规模数据集(具有47万对数据),其质量显著优于现有基准甚至人类专家。该数据集依托一种创新的智能体流水线,融合了视觉到语言压缩以减少多模态大语言模型的视觉偏置、通过初级-高级智能体交接实现5倍的成本降低,以及严格的后期过滤以确保保真度。由此,SoundAtlas提供了语义丰富且时间细节详尽的描述,并实现了紧密的视频-音频-文本对齐。其次,我们提出Omni2Sound,一个支持灵活输入模态的统一视频-文本到音频扩散模型。为解决固有的跨任务与任务内竞争,我们设计了一个三阶段的多任务渐进式训练计划,将跨任务竞争转化为联合优化,并缓解视频-文本到音频生成任务中的模态偏置,同时保持音视频对齐与屏幕外音频生成的保真度。最后,我们构建了VGGSound-Omni,一个用于统一评估的综合基准,包含具有挑战性的屏幕外音频轨道。借助标准的DiT骨干网络,Omni2Sound在单一模型中实现了三种任务上的统一最先进性能,展现了跨具有异构输入条件的基准的强泛化能力。

0
下载
关闭预览

相关内容

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
专知会员服务
19+阅读 · 2021年9月13日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员