Multimodal generative models have shown remarkable progress in single-modality video and audio synthesis, yet truly joint audio-video generation remains an open challenge. In this paper, I explore four key contributions to advance this field. First, I release two high-quality, paired audio-video datasets. The datasets consisting on 13 hours of video-game clips and 64 hours of concert performances, each segmented into consistent 34-second samples to facilitate reproducible research. Second, I train the MM-Diffusion architecture from scratch on our datasets, demonstrating its ability to produce semantically coherent audio-video pairs and quantitatively evaluating alignment on rapid actions and musical cues. Third, I investigate joint latent diffusion by leveraging pretrained video and audio encoder-decoders, uncovering challenges and inconsistencies in the multimodal decoding stage. Finally, I propose a sequential two-step text-to-audio-video generation pipeline: first generating video, then conditioning on both the video output and the original prompt to synthesize temporally synchronized audio. My experiments show that this modular approach yields high-fidelity generations of audio video generation.


翻译:多模态生成模型在单模态视频与音频合成领域取得了显著进展,然而真正意义上的联合音频-视频生成仍是一项开放挑战。本文通过四项关键贡献推动该领域发展:首先,公开两个高质量配对音频-视频数据集,包含13小时游戏剪辑与64小时音乐会表演片段,每段分割为一致的34秒样本以促进可重复研究;其次,在这些数据集上从头训练MM-Diffusion架构,证明其生成语义连贯音视频对的能力,并通过快速动作与音乐线索的对齐性进行定量评估;第三,利用预训练的视频与音频编码-解码器探索联合潜在扩散,揭示多模态解码阶段存在的挑战与不一致性;最后提出一种顺序式两步文本到音频-视频生成流水线:先生成视频,再以视频输出与原始提示为条件合成时间同步的音频。实验表明,这种模块化方法能够生成高保真度的音频-视频内容。

0
下载
关闭预览

相关内容

音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
【Hugging Face】开源视频生成模型的发展现状,31页ppt
专知会员服务
18+阅读 · 2025年8月30日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
【Hugging Face】开源视频生成模型的发展现状,31页ppt
专知会员服务
18+阅读 · 2025年8月30日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员