With the rising need for spatially grounded tasks such as Vision-Language Navigation/Action, allocentric perception capabilities in Vision-Language Models (VLMs) are receiving growing focus. However, VLMs remain brittle on allocentric spatial queries that require explicit perspective shifts, where the answer depends on reasoning in a target-centric frame rather than the observed camera view. Thus, we introduce Allocentric Perceiver, a training-free strategy that recovers metric 3D states from one or more images with off-the-shelf geometric experts, and then instantiates a query-conditioned allocentric reference frame aligned with the instruction's semantic intent. By deterministically transforming reconstructed geometry into the target frame and prompting the backbone VLM with structured, geometry-grounded representations, Allocentric Perceriver offloads mental rotation from implicit reasoning to explicit computation. We evaluate Allocentric Perciver across multiple backbone families on spatial reasoning benchmarks, observing consistent and substantial gains ($\sim$10%) on allocentric tasks while maintaining strong egocentric performance, and surpassing both spatial-perception-finetuned models and state-of-the-art open-source and proprietary models.


翻译:随着视觉语言导航/动作等空间基础任务需求的增长,视觉语言模型中的以自我为中心感知能力日益受到关注。然而,在处理需要显式视角转换的以自我为中心空间查询时,视觉语言模型仍显脆弱——这类问题的答案需在目标中心框架而非观察相机视角中进行推理。为此,我们提出以自我为中心感知器,这是一种免训练策略:首先利用现成的几何专家从单幅或多幅图像中恢复度量三维状态,随后实例化一个与指令语义意图对齐的查询条件化以自我为中心参考框架。通过将重建几何确定性地转换至目标框架,并以结构化、几何基础的表征提示骨干视觉语言模型,以自我为中心感知器将心理旋转从隐式推理转移至显式计算。我们在空间推理基准测试中对多个骨干模型家族的以自我为中心感知器进行评估,观察到在以自我为中心任务上获得持续且显著的性能提升(约10%),同时保持强大的以自我为中心性能,其表现超越了经过空间感知微调的模型以及最先进的开源与专有模型。

0
下载
关闭预览

相关内容

视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
30+阅读 · 2022年3月28日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关资讯
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员