Spatial intelligence is a key frontier for multimodal large language models (MLLMs), enabling them to reason about the physical world from visual experience. Inspired by human spatial cognition, recent approaches construct grid-based cognitive maps from multi-frame visual inputs to maintain coherent spatial representations over time. However, limited context lengths still challenge spatial understanding, while existing methods, such as long-context modeling and external memory, often require architectural changes, memory modules, or finetuning, limiting their applicability to off-the-shelf pretrained MLLMs. This motivates a lightweight, model-agnostic method for preserving spatial information beyond the native context window. To this end, we propose a plug-and-play multi-agent framework that collaboratively constructs cognitive maps as structured spatial memory, enhancing the spatial understanding of arbitrary pretrained MLLMs without architectural modification or additional training. Our framework features local-global agent coordination, cognitive map construction with atomic commits, and cross-agent verification. Extensive experiments demonstrate that our method achieves superior performance on spatial understanding tasks while remaining fully training-free. Code will be released.


翻译:空间智能是多模态大语言模型的核心前沿能力,使其能够基于视觉经验对物理世界进行推理。受人类空间认知启发,近期方法通过多帧视觉输入构建基于网格的认知地图,以维持随时间演化的连贯空间表征。然而,有限的上下文长度仍制约空间理解能力,而现有方法(如长上下文建模和外部记忆)往往需要架构改造、记忆模块或微调,限制了其对现成预训练多模态大语言模型的适用性。这促使我们探索一种轻量级、与模型无关的方法以保留超越原生上下文窗口的空间信息。为此,我们提出一种即插即用的多智能体框架,通过协作构建结构化的空间记忆认知地图,在不改变架构或额外训练的条件下提升任意预训练多模态大语言模型的空间理解能力。该框架包含局部-全局智能体协作、基于原子提交的认知地图构建以及跨智能体验证机制。大量实验表明,本方法在空间理解任务上取得优越性能,且完全无需训练。代码将开源。

0
下载
关闭预览

相关内容

重建四维空间智能:综述
专知会员服务
25+阅读 · 2025年7月29日
空间智能研究报告
专知会员服务
31+阅读 · 2025年5月16日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
面向人工智能新基建的知识图谱行业白皮书
专知会员服务
81+阅读 · 2021年2月7日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
如何构建行业知识图谱(以医疗行业为例)
清华大学:人工智能之知识图谱(附PPT)
人工智能学家
74+阅读 · 2019年6月9日
【知识图谱】知识图谱怎么与深度学习结合?
产业智能官
160+阅读 · 2018年12月18日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 24分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 26分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 38分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 58分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员