In recent years, researchers have increasingly been interested in how to enable Multimodal Large Language Models (MLLM) to possess spatial understanding and reasoning capabilities. However, most existing methods overlook the importance of the ability to continuously work in an ever-changing world, and lack the possibility of deployment on embodied systems in real-world environments. In this work, we introduce OnlineSI, a framework that can continuously improve its spatial understanding of its surroundings given a video stream. Our core idea is to maintain a finite spatial memory to retain past observations, ensuring the computation required for each inference does not increase as the input accumulates. We further integrate 3D point cloud information with semantic information, helping MLLM to better locate and identify objects in the scene. To evaluate our method, we introduce the Fuzzy $F_1$-Score to mitigate ambiguity, and test our method on two representative datasets. Experiments demonstrate the effectiveness of our method, paving the way towards real-world embodied systems.


翻译:近年来,研究者们日益关注如何使多模态大语言模型具备空间理解与推理能力。然而,现有方法大多忽视了在不断变化的环境中持续工作的能力的重要性,且缺乏在现实世界具身系统中部署的可能性。本工作提出了OnlineSI框架,该框架能够在给定视频流的情况下持续提升其对周围环境的空间理解。我们的核心思想是维护一个有限的空间记忆以保留过去的观测,确保每次推理所需的计算量不会随输入累积而增加。我们进一步将三维点云信息与语义信息相结合,帮助多模态大语言模型更好地定位和识别场景中的物体。为评估本方法,我们引入了模糊$F_1$分数以缓解歧义,并在两个代表性数据集上测试了我们的方法。实验证明了本方法的有效性,为迈向现实世界的具身系统铺平了道路。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
面向网络空间认知战的大语言模型:技术与挑战
专知会员服务
50+阅读 · 2025年1月3日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员