Foundation Models (FMs) have achieved state-of-the-art performance across domains by leveraging large-scale pretraining. In Earth Observation (EO), the availability of petabyte-scale satellite archives has recently enabled the development of GeoSpatial Foundation Models (GFMs). Yet, fundamental questions remain regarding how dataset size, model architecture, and size interact to determine downstream performance. In this work, we systematically explore this design space by pretraining and fine-tuning models on three dataset scales: PhilEO Globe (0.5TB), FastTOM (2TB, introduced here), and MajorTOM (23TB). We evaluate three architectural families: Geo-Aware U-Net (CNN), ViT-UPerNet (Transformer), and Mamba (State-Space Model); across model sizes ranging from 44M to 300M parameters. All models are benchmarked on the PhilEO Bench, covering: road density and building density regression, and land cover segmentation, and are compared against existing GFMs such as TerraMind and Prithvi-EO-2.0. Our results show that CNN-based models remain highly competitive in low-shot settings, with a 200M-parameter Geo-Aware U-Net outperforming larger architectures on regression tasks. However, when scaling to multi-terabyte datasets, ViT-UPerNet achieves the best performance, particularly for semantic segmentation on MajorTOM (23TB). Finally, we provide the first extensive evaluation of Mamba models in EO, highlighting their potential efficiency advantages, though further large-scale pretraining is required to fully match CNNs and ViTs. All code, pretrained models, and the FastTOM dataset are released publicly, enabling reproducibility and further exploration of scaling laws for GFMs.


翻译:基础模型通过大规模预训练已在多个领域实现了最先进的性能。在地球观测领域,PB级卫星存档数据的可用性近期催生了地理空间基础模型的发展。然而,关于数据集规模、模型架构与模型尺寸如何共同决定下游性能的基本问题仍未得到解答。本研究通过在三类数据集规模上进行预训练与微调,系统性地探索了这一设计空间:PhilEO Globe(0.5TB)、FastTOM(2TB,本文首次提出)和MajorTOM(23TB)。我们评估了三种架构系列:地理感知U-Net(CNN)、ViT-UPerNet(Transformer)和Mamba(状态空间模型);模型参数量覆盖44M至300M范围。所有模型均在PhilEO Bench上进行基准测试,涵盖道路密度与建筑密度回归、土地覆盖分割任务,并与现有地理空间基础模型(如TerraMind和Prithvi-EO-2.0)进行对比。实验结果表明:在低样本场景下,基于CNN的模型仍具有强大竞争力,参数量为200M的地理感知U-Net在回归任务上优于更大规模的架构;但当扩展至TB级数据集时,ViT-UPerNet在MajorTOM(23TB)上展现出最佳性能,尤其在语义分割任务中。此外,我们首次在地球观测领域对Mamba模型进行了全面评估,揭示了其潜在的效率优势,但需进一步大规模预训练才能完全匹配CNN与ViT的性能。所有代码、预训练模型及FastTOM数据集均已公开发布,以促进地理空间基础模型缩放定律的可复现性研究与深入探索。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
联邦学习中基础模型参数高效微调综述
专知会员服务
16+阅读 · 2025年5月5日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
LoRA进展有哪些?最新《基础模型的低秩适应》综述
专知会员服务
37+阅读 · 2025年1月3日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
联邦学习中基础模型参数高效微调综述
专知会员服务
16+阅读 · 2025年5月5日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
LoRA进展有哪些?最新《基础模型的低秩适应》综述
专知会员服务
37+阅读 · 2025年1月3日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员