World models simulate environmental dynamics to enable agents to plan and reason about future states. While existing approaches have primarily focused on visual observations, real-world perception inherently involves multiple sensory modalities. Audio provides crucial spatial and temporal cues such as sound source localization and acoustic scene properties, yet its integration into world models remains relatively underexplored. Prior work has not established a commonly adopted formulation for audio-visual world modeling under low-level action control or clarified how to jointly capture physically grounded binaural audio and visual dynamics. This work presents a unified formulation of Audio-Visual World Models (AVWM), casting multimodal environment simulation as a partially observable Markov decision process with synchronized audio-visual observations. As a foundational step toward this problem, we construct AVW-4k, a controlled benchmark comprising 30 hours of binaural audio-visual trajectories with action annotations across 76 indoor environments. We propose AV-CDiT, an Audio-Visual Conditional Diffusion Transformer with a novel modality expert architecture that balances visual and auditory learning, optimized through a three-stage training strategy for effective multimodal integration. Extensive experiments on this benchmark demonstrate that AV-CDiT achieves high-fidelity multimodal prediction across visual and auditory modalities. Furthermore, we validate its practical utility in embodied navigation, demonstrating that AVWM improves a vision-language-model-guided agent in continuous audio-visual navigation.


翻译:世界模型通过模拟环境动态使智能体能够规划并推理未来状态。尽管现有研究主要聚焦于视觉观测,但真实感知本质上涉及多种感官模态。声音提供了声源定位、声场景属性等关键时空线索,然而其在世界模型中的整合仍相对未被充分探索。现有工作尚未建立低层动作控制下视听世界建模的通用公式,亦未阐明如何联合捕获具有物理根基的双耳音频与视觉动态。本研究提出视听世界模型(AVWM)的统一公式,将多模态环境模拟建模为具有同步音视频观测的部分可观测马尔可夫决策过程。作为解决该问题的基础步骤,我们构建了AVW-4k基准数据集,包含30小时跨76个室内环境的双耳视听轨迹与动作标注。我们提出AV-CDiT,一种采用新颖模态专家架构以平衡视觉与听觉学习的视听条件扩散Transformer,通过三阶段训练策略实现高效多模态整合。在该基准上的大量实验表明,AV-CDiT在视觉与听觉模态上均实现了高保真多模态预测。此外,我们在具身导航任务中验证了其实际效用,证明AVWM可改进视觉语言模型引导的智能体在连续视听导航中的表现。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 52分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员