Vision-Language Foundation Models (VLFMs) have made remarkable progress on various multimodal tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding. However, most methods rely on training with general image datasets, and the lack of geospatial data leads to poor performance on earth observation. Numerous geospatial image-text pair datasets and VLFMs fine-tuned on them have been proposed recently. These new approaches aim to leverage large-scale, multimodal geospatial data to build versatile intelligent models with diverse geo-perceptive capabilities, which we refer to as Vision-Language Geo-Foundation Models (VLGFMs). This paper thoroughly reviews VLGFMs, summarizing and analyzing recent developments in the field. In particular, we introduce the background and motivation behind the rise of VLGFMs, highlighting their unique research significance. Then, we systematically summarize the core technologies employed in VLGFMs, including data construction, model architectures, and applications of various multimodal geospatial tasks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To the best of our knowledge, this is the first comprehensive literature review of VLGFMs. We keep tracing related works at https://github.com/zytx121/Awesome-VLGFM.


翻译:视觉-语言基础模型在各种多模态任务上取得了显著进展,例如图像描述生成、图文检索、视觉问答和视觉定位。然而,大多数方法依赖于通用图像数据集进行训练,地理空间数据的缺乏导致其在地球观测任务上表现不佳。近年来,众多地理空间图像-文本对数据集以及基于其微调的视觉-语言基础模型被提出。这些新方法旨在利用大规模、多模态的地理空间数据,构建具备多样化地理感知能力的通用智能模型,我们将其称为视觉-语言地理基础模型。本文全面回顾了视觉-语言地理基础模型,总结并分析了该领域的最新进展。具体而言,我们介绍了视觉-语言地理基础模型兴起的背景与动机,强调了其独特的研究意义。随后,我们系统性地总结了视觉-语言地理基础模型采用的核心技术,包括数据构建、模型架构以及各类多模态地理空间任务的应用。最后,我们以对未来研究方向的见解、现存问题与讨论作为总结。据我们所知,这是首篇关于视觉-语言地理基础模型的全面文献综述。我们持续在 https://github.com/zytx121/Awesome-VLGFM 追踪相关研究工作。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
《面向视觉语言地理基础模型》综述
专知会员服务
46+阅读 · 2024年6月15日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员