World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multiple sensory modalities. Audio provides crucial spatial and temporal cues such as sound source localization and acoustic scene properties, yet its integration into world models remains largely unexplored. No prior work has formally defined what constitutes an audio-visual world model or how to jointly capture binaural spatial audio and visual dynamics under precise action control. This work presents the first formal framework for Audio-Visual World Models (AVWM), formulating multimodal environment simulation as a partially observable Markov decision process with synchronized audio-visual observations. To address the lack of suitable training data, we construct AVW-4k, a dataset comprising 30 hours of binaural audio-visual trajectories with action annotations across 76 indoor environments. We propose AV-CDiT, an Audio-Visual Conditional Diffusion Transformer with a novel modality expert architecture that balances visual and auditory learning, optimized through a three-stage training strategy for effective multimodal integration. Extensive experiments demonstrate that AV-CDiT achieves high-fidelity multimodal prediction across visual and auditory modalities. Furthermore, we validate its practical utility in continuous audio-visual navigation tasks, where AVWM significantly enhances the agent's performance.


翻译:世界模型通过模拟环境动态,使智能体能够对未来状态进行规划与推理。现有方法主要集中于视觉观测,而真实世界的感知本质上涉及多种感官模态。音频提供了关键的空间与时间线索,如声源定位与声学场景特性,但其在世界模型中的整合仍鲜有探索。此前尚无研究正式定义何谓视听世界模型,亦未阐明如何在精确动作控制下联合捕捉双耳空间音频与视觉动态。本研究首次提出了视听世界模型(AVWM)的形式化框架,将多模态环境模拟表述为具有同步视听观测的部分可观测马尔可夫决策过程。针对训练数据匮乏的问题,我们构建了AVW-4k数据集,包含76个室内环境中30小时带动作标注的双耳视听轨迹。我们提出AV-CDiT——一种采用新型模态专家架构的视听条件扩散Transformer,该架构通过三阶段训练策略优化,平衡视觉与听觉学习以实现有效的多模态整合。大量实验表明,AV-CDiT在视觉与听觉模态上均实现了高保真度的多模态预测。此外,我们在连续视听导航任务中验证了其实际效用,证明AVWM能显著提升智能体的性能。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
12+阅读 · 5月17日
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
19+阅读 · 5月1日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
5+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
5+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
15+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
从看见到认知世界:视觉世界模型综述
专知会员服务
12+阅读 · 5月17日
音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
19+阅读 · 5月1日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员