Recent advancements in 4D generation have demonstrated its remarkable capability in synthesizing photorealistic renderings of dynamic 3D scenes. However, despite achieving impressive visual performance, almost all existing methods overlook the generation of spatial audio aligned with the corresponding 4D scenes, posing a significant limitation to truly immersive audiovisual experiences. To mitigate this issue, we propose Sonic4D, a novel framework that enables spatial audio generation for immersive exploration of 4D scenes. Specifically, our method is composed of three stages: 1) To capture both the dynamic visual content and raw auditory information from a monocular video, we first employ pre-trained expert models to generate the 4D scene and its corresponding monaural audio. 2) Subsequently, to transform the monaural audio into spatial audio, we localize and track the sound sources within the 4D scene, where their 3D spatial coordinates at different timestamps are estimated via a pixel-level visual grounding strategy. 3) Based on the estimated sound source locations, we further synthesize plausible spatial audio that varies across different viewpoints and timestamps using physics-based simulation. Extensive experiments have demonstrated that our proposed method generates realistic spatial audio consistent with the synthesized 4D scene in a training-free manner, significantly enhancing the immersive experience for users. Generated audio and video examples are available at https://x-drunker.github.io/Sonic4D-project-page.


翻译:近期4D生成技术的进展已展现出其在合成动态3D场景的光照真实感渲染方面的卓越能力。然而,尽管在视觉表现上取得了令人印象深刻的成果,现有方法几乎都忽视了生成与对应4D场景对齐的空间音频,这对实现真正沉浸式的视听体验构成了显著限制。为缓解此问题,我们提出了Sonic4D——一个能够为4D场景沉浸式探索生成空间音频的新型框架。具体而言,我们的方法包含三个阶段:1)为从单目视频中捕获动态视觉内容与原始听觉信息,我们首先采用预训练的专家模型生成4D场景及其对应的单声道音频。2)随后,为将单声道音频转换为空间音频,我们在4D场景中对声源进行定位与跟踪,通过像素级视觉定位策略估算其在不同时间戳下的三维空间坐标。3)基于估算的声源位置,我们进一步利用基于物理的仿真技术合成随不同视点和时间戳变化的合理空间音频。大量实验表明,我们所提出的方法能够以无需训练的方式生成与合成4D场景一致的逼真空间音频,显著提升了用户的沉浸式体验。生成的音频与视频示例可在 https://x-drunker.github.io/Sonic4D-project-page 获取。

0
下载
关闭预览

相关内容

【NeurIPS2025】Instant4D:高效的4D高斯喷溅方法
专知会员服务
7+阅读 · 2025年10月2日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
4D生成技术的进展:研究综述
专知会员服务
24+阅读 · 2025年3月19日
【伯克利博士论文】揭示任何视频背后的四维世界
专知会员服务
26+阅读 · 2024年11月24日
【TPAMI 2023】生成式AI与图像合成综述发布!
专知会员服务
49+阅读 · 2023年9月7日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
新型相机DVS/Event-based camera的发展及应用
计算机视觉life
16+阅读 · 2019年3月12日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
无人机与反无人机系统(书籍)
专知会员服务
1+阅读 · 今天6:45
乌克兰2026年军用无人机:现代战争如何被改变
专知会员服务
1+阅读 · 今天5:53
美陆军2026条令:安全与机动支援
专知会员服务
0+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
7+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
4+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
5+阅读 · 4月13日
相关VIP内容
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员