Multi-image spatial reasoning remains challenging for current multimodal large language models (MLLMs). While single-view perception is inherently 2D, reasoning over multiple views requires building a coherent scene understanding across viewpoints. In particular, we study perspective taking, where a model must build a coherent 3D understanding from multi-view observations and use it to reason from a new, language-specified viewpoint. We introduce CAMCUE, a pose-aware multi-image framework that uses camera pose as an explicit geometric anchor for cross-view fusion and novel-view reasoning. CAMCUE injects per-view pose into visual tokens, grounds natural-language viewpoint descriptions to a target camera pose, and synthesizes a pose-conditioned imagined target view to support answering. To support this setting, we curate CAMCUE-DATA with 27,668 training and 508 test instances pairing multi-view images and poses with diverse target-viewpoint descriptions and perspective-shift questions. We also include human-annotated viewpoint descriptions in the test split to evaluate generalization to human language. CAMCUE improves overall accuracy by 9.06% and predicts target poses from natural-language viewpoint descriptions with over 90% rotation accuracy within 20° and translation accuracy within a 0.5 error threshold. This direct grounding avoids expensive test-time search-and-match, reducing inference time from 256.6s to 1.45s per example and enabling fast, interactive use in real-world scenarios.


翻译:多图像空间推理对于当前的多模态大语言模型(MLLMs)仍然具有挑战性。单视角感知本质上是二维的,而对多视角进行推理则需要在不同视点之间建立连贯的场景理解。本研究特别关注视角采样的任务,即模型必须从多视角观测中构建一致的三维理解,并利用该理解从语言指定的新视点进行推理。我们提出了CAMCUE,一种位姿感知的多图像框架,该框架将相机位姿作为跨视图融合和新视角推理的显式几何锚点。CAMCUE将每个视图的位姿信息注入视觉标记中,将自然语言视角描述锚定到目标相机位姿,并合成一个位姿条件化的想象目标视图以支持答案生成。为了支持这一设定,我们构建了CAMCUE-DATA数据集,包含27,668个训练实例和508个测试实例,这些实例将多视角图像及其位姿与多样化的目标视角描述及视角变换问题配对。我们还在测试集中加入了人工标注的视角描述,以评估模型对人类语言的泛化能力。CAMCUE将整体准确率提升了9.06%,并且能够从自然语言视角描述中预测目标位姿,其旋转预测在20°误差内的准确率超过90%,平移预测在0.5误差阈值内的准确率也超过90%。这种直接锚定机制避免了昂贵的测试时搜索匹配过程,将每个示例的推理时间从256.6秒减少到1.45秒,从而实现了在真实场景中快速、交互式的应用。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态空间推理在大模型时代:综述与基准测试
专知会员服务
14+阅读 · 2025年10月30日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员