We propose Map2Thought, a framework that enables explicit and interpretable spatial reasoning for 3D VLMs. The framework is grounded in two key components: Metric Cognitive Map (Metric-CogMap) and Cognitive Chain-of-Thought (Cog-CoT). Metric-CogMap provides a unified spatial representation by integrating a discrete grid for relational reasoning with a continuous, metric-scale representation for precise geometric understanding. Building upon the Metric-CogMap, Cog-CoT performs explicit geometric reasoning through deterministic operations, including vector operations, bounding-box distances, and occlusion-aware appearance order cues, producing interpretable inference traces grounded in 3D structure. Experimental results show that Map2Thought enables explainable 3D understanding, achieving 59.9% accuracy using only half the supervision, closely matching the 60.9% baseline trained with the full dataset. It consistently outperforms state-of-the-art methods by 5.3%, 4.8%, and 4.0% under 10%, 25%, and 50% training subsets, respectively, on the VSI-Bench.


翻译:我们提出了Map2Thought框架,该框架为三维视觉语言模型(3D VLM)实现了显式且可解释的空间推理。该框架基于两个核心组件:度量认知地图(Metric-CogMap)与认知思维链(Cog-CoT)。Metric-CogMap通过整合用于关系推理的离散网格与用于精确几何理解的连续度量尺度表示,提供了一个统一的空间表征。基于Metric-CogMap,Cog-CoT通过确定性操作(包括向量运算、边界框距离计算以及遮挡感知的外观顺序线索)执行显式几何推理,并生成基于三维结构的可解释推理轨迹。实验结果表明,Map2Thought实现了可解释的三维理解,仅使用一半的监督数据即达到59.9%的准确率,与使用全数据集训练得到的60.9%基线性能接近。在VSI-Bench基准测试中,该框架在10%、25%和50%训练子集条件下,分别以5.3%、4.8%和4.0%的优势持续超越现有最优方法。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员