Fully immersive experiences that tightly integrate 6-DoF visual and auditory interaction are essential for virtual and augmented reality. While such experiences can be achieved through computer-generated content, constructing them directly from real-world captured videos remains largely unexplored. We introduce Immersive Volumetric Videos, a new volumetric media format designed to provide large 6-DoF interaction spaces, audiovisual feedback, and high-resolution, high-frame-rate dynamic content. To support IVV construction, we present ImViD, a multi-view, multi-modal dataset built upon a space-oriented capture philosophy. Our custom capture rig enables synchronized multi-view video-audio acquisition during motion, facilitating efficient capture of complex indoor and outdoor scenes with rich foreground--background interactions and challenging dynamics. The dataset provides 5K-resolution videos at 60 FPS with durations of 1-5 minutes, offering richer spatial, temporal, and multimodal coverage than existing benchmarks. Leveraging this dataset, we develop a dynamic light field reconstruction framework built upon a Gaussian-based spatio-temporal representation, incorporating flow-guided sparse initialization, joint camera temporal calibration, and multi-term spatio-temporal supervision for robust and accurate modeling of complex motion. We further propose, to our knowledge, the first method for sound field reconstruction from such multi-view audiovisual data. Together, these components form a unified pipeline for immersive volumetric video production. Extensive benchmarks and immersive VR experiments demonstrate that our pipeline generates high-quality, temporally stable audiovisual volumetric content with large 6-DoF interaction spaces. This work provides both a foundational definition and a practical construction methodology for immersive volumetric videos.


翻译:完全沉浸式体验需紧密整合6自由度视觉与听觉交互,这对虚拟现实和增强现实至关重要。尽管此类体验可通过计算机生成内容实现,但直接从真实世界捕获视频构建仍鲜有探索。我们提出沉浸式体积视频(Immersive Volumetric Videos),这是一种新型体积媒体格式,旨在提供大范围6自由度交互空间、视听反馈及高分辨率高帧率动态内容。为支撑IVV构建,我们提出ImViD数据集——基于空间导向捕获理念构建的多视角多模态数据集。定制化捕获设备支持运动过程中多视角视频-音频同步采集,可高效捕获包含丰富前景-背景交互与复杂动态的室内外场景。该数据集提供5K分辨率、60FPS帧率、时长1-5分钟的视频,相较于现有基准具备更丰富的空间、时间与多模态覆盖。基于此数据集,我们构建了动态光场重建框架,其核心采用基于高斯函数的时空表征,融合流引导稀疏初始化、联合相机时间标定及多目标时空监督,以实现复杂运动的鲁棒精确建模。我们进一步提出——据我们所知——首个基于此类多视角视听数据的声音场重建方法。上述组件共同构成沉浸式体积视频制作的统一流水线。广泛基准测试与沉浸式VR实验表明,我们的流水线可生成具有大范围6自由度交互空间的高质量、时间稳定视听体积内容。本工作为沉浸式体积视频提供了基础定义与实用构建方法论。

0
下载
关闭预览

相关内容

《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
交互式生成视频综述
专知会员服务
10+阅读 · 2025年5月4日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
专知会员服务
68+阅读 · 2021年10月15日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 22分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 24分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 36分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 56分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
交互式生成视频综述
专知会员服务
10+阅读 · 2025年5月4日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
专知会员服务
68+阅读 · 2021年10月15日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员