Humans can look at a static scene and instantly predict what happens next -- will moving this object cause a collision? We call this ability Causal Spatial Reasoning. However, current multimodal large language models (MLLMs) cannot do this, as they remain largely restricted to static spatial perception, struggling to answer "what-if" questions in a 3D scene. We introduce CausalSpatial, a diagnostic benchmark evaluating whether models can anticipate consequences of object motions across four tasks: Collision, Compatibility, Occlusion, and Trajectory. Results expose a severe gap: humans score 84% while GPT-5 achieves only 54%. Why do MLLMs fail? Our analysis uncovers a fundamental deficiency: models over-rely on textual chain-of-thought reasoning that drifts from visual evidence, producing fluent but spatially ungrounded hallucinations. To address this, we propose the Causal Object World model (COW), a framework that externalizes the simulation process by generating videos of hypothetical dynamics. With explicit visual cues of causality, COW enables models to ground their reasoning in physical reality rather than linguistic priors. We make the dataset and code publicly available here: https://github.com/CausalSpatial/CausalSpatial


翻译:人类能够观察静态场景并瞬间预测接下来会发生什么——移动这个物体会导致碰撞吗?我们将这种能力称为因果空间推理。然而,当前的多模态大语言模型(MLLMs)尚无法做到这一点,因为它们主要局限于静态空间感知,难以回答三维场景中的“假设”问题。我们提出了CausalSpatial,这是一个诊断性基准,用于评估模型在四项任务中预测物体运动后果的能力:碰撞、兼容性、遮挡和轨迹。结果揭示了一个显著的差距:人类得分84%,而GPT-5仅达到54%。MLLMs为何失败?我们的分析揭示了一个根本性缺陷:模型过度依赖脱离视觉证据的文本链式推理,产生了流畅但空间上无根据的幻觉。为解决这一问题,我们提出了因果对象世界模型(COW),这是一个通过生成假设动态视频来外化模拟过程的框架。借助明确的因果视觉线索,COW使模型能够将其推理基于物理现实而非语言先验。我们将数据集和代码公开于此:https://github.com/CausalSpatial/CausalSpatial

0
下载
关闭预览

相关内容

【博士论文】《自然语言处理中的因果推理》
专知会员服务
22+阅读 · 2025年4月25日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员