World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multiple sensory modalities. Audio provides crucial spatial and temporal cues such as sound source localization and acoustic scene properties, yet its integration into world models remains largely unexplored. No prior work has formally defined what constitutes an audio-visual world model or how to jointly capture binaural spatial audio and visual dynamics under precise action control. This work presents the first formal framework for Audio-Visual World Models (AVWM), formulating multimodal environment simulation as a partially observable Markov decision process with synchronized audio-visual observations. To address the lack of suitable training data, we construct AVW-4k, a dataset comprising 30 hours of binaural audio-visual trajectories with action annotations across 76 indoor environments. We propose AV-CDiT, an Audio-Visual Conditional Diffusion Transformer with a novel modality expert architecture that balances visual and auditory learning, optimized through a three-stage training strategy for effective multimodal integration. Extensive experiments demonstrate that AV-CDiT achieves high-fidelity multimodal prediction across visual and auditory modalities. Furthermore, we validate its practical utility in continuous audio-visual navigation tasks, where AVWM significantly enhances the agent's performance.


翻译:世界模型通过模拟环境动态,使智能体能够对未来状态进行规划与推理。现有方法主要集中于视觉观测,而真实世界的感知本质上涉及多种感官模态。音频提供了关键的空间与时间线索,如声源定位与声学场景特性,但其在世界模型中的整合仍鲜有探索。此前尚无研究正式定义何谓视听世界模型,亦未阐明如何在精确动作控制下联合捕捉双耳空间音频与视觉动态。本研究首次提出了视听世界模型(AVWM)的形式化框架,将多模态环境模拟表述为具有同步视听观测的部分可观测马尔可夫决策过程。针对训练数据匮乏的问题,我们构建了AVW-4k数据集,包含76个室内环境中30小时带动作标注的双耳视听轨迹。我们提出AV-CDiT——一种采用新型模态专家架构的视听条件扩散Transformer,该架构通过三阶段训练策略优化,平衡视觉与听觉学习以实现有效的多模态整合。大量实验表明,AV-CDiT在视觉与听觉模态上均实现了高保真度的多模态预测。此外,我们在连续视听导航任务中验证了其实际效用,证明AVWM能显著提升智能体的性能。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
1+阅读 · 4月11日
无人机在美以伊战争中的关键启示(印度视角)
相关VIP内容
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员