Vision-Language Foundation Models (VLFMs) have made remarkable progress on various multimodal tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding. However, most methods rely on training with general image datasets, and the lack of geospatial data leads to poor performance on earth observation. Numerous geospatial image-text pair datasets and VLFMs fine-tuned on them have been proposed recently. These new approaches aim to leverage large-scale, multimodal geospatial data to build versatile intelligent models with diverse geo-perceptive capabilities, which we refer to as Vision-Language Geo-Foundation Models (VLGFMs). This paper thoroughly reviews VLGFMs, summarizing and analyzing recent developments in the field. In particular, we introduce the background and motivation behind the rise of VLGFMs, highlighting their unique research significance. Then, we systematically summarize the core technologies employed in VLGFMs, including data construction, model architectures, and applications of various multimodal geospatial tasks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To the best of our knowledge, this is the first comprehensive literature review of VLGFMs. We keep tracing related works at https://github.com/zytx121/Awesome-VLGFM.


翻译:视觉-语言基础模型在各种多模态任务上取得了显著进展,例如图像描述生成、图文检索、视觉问答和视觉定位。然而,大多数方法依赖于通用图像数据集进行训练,地理空间数据的缺乏导致其在地球观测任务上表现不佳。近年来,众多地理空间图像-文本对数据集以及基于其微调的视觉-语言基础模型被提出。这些新方法旨在利用大规模、多模态的地理空间数据,构建具备多样化地理感知能力的通用智能模型,我们将其称为视觉-语言地理基础模型。本文全面回顾了视觉-语言地理基础模型,总结并分析了该领域的最新进展。具体而言,我们介绍了视觉-语言地理基础模型兴起的背景与动机,强调了其独特的研究意义。随后,我们系统性地总结了视觉-语言地理基础模型采用的核心技术,包括数据构建、模型架构以及各类多模态地理空间任务的应用。最后,我们以对未来研究方向的见解、现存问题与讨论作为总结。据我们所知,这是首篇关于视觉-语言地理基础模型的全面文献综述。我们持续在 https://github.com/zytx121/Awesome-VLGFM 追踪相关研究工作。

0
下载
关闭预览

相关内容

视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉通用模型综述
专知会员服务
28+阅读 · 2025年6月12日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
49+阅读 · 2024年4月12日
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
36+阅读 · 2024年1月1日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员