Accurate crop mapping fundamentally relies on modeling multi-scale spatiotemporal patterns, where spatial scales range from individual field textures to landscape-level context, and temporal scales capture both short-term phenological transitions and full growing-season dynamics. Transformer-based remote sensing foundation models (RSFMs) offer promising potential for crop mapping due to their innate ability for unified spatiotemporal processing. However, current RSFMs remain suboptimal for crop mapping: they either employ fixed spatiotemporal windows that ignore the multi-scale nature of crop systems or completely disregard temporal information by focusing solely on spatial patterns. To bridge these gaps, we present AgriFM, a multi-source remote sensing foundation model specifically designed for agricultural crop mapping. Our approach begins by establishing the necessity of simultaneous hierarchical spatiotemporal feature extraction, leading to the development of a modified Video Swin Transformer architecture where temporal down-sampling is synchronized with spatial scaling operations. This modified backbone enables efficient unified processing of long time-series satellite inputs. AgriFM leverages temporally rich data streams from three satellite sources including MODIS, Landsat-8/9 and Sentinel-2, and is pre-trained on a global representative dataset comprising over 25 million image samples supervised by land cover products. The resulting framework incorporates a versatile decoder architecture that dynamically fuses these learned spatiotemporal representations, supporting diverse downstream tasks. Comprehensive evaluations demonstrate AgriFM's superior performance over conventional deep learning approaches and state-of-the-art general-purpose RSFMs across all downstream tasks. Codes will be available at https://github.com/flyakon/AgriFM.


翻译:精确的作物制图根本上依赖于对多尺度时空模式的建模,其中空间尺度涵盖从单个田块纹理到景观级上下文,而时间尺度则需捕捉短期物候转换与完整生长季动态。基于Transformer的遥感基础模型因其固有的统一时空处理能力,在作物制图领域展现出巨大潜力。然而,现有遥感基础模型在作物制图应用中仍存在不足:它们或采用固定的时空窗口而忽略作物系统的多尺度特性,或完全忽视时序信息而仅聚焦空间模式。为弥补这些缺陷,本文提出AgriFM——一个专为农业作物制图设计的多源遥感基础模型。我们的研究首先论证了同步进行层次化时空特征提取的必要性,进而开发了一种改进的Video Swin Transformer架构,其中时序下采样操作与空间尺度变换保持同步。这种改进的骨干网络能够对长时间序列卫星输入进行高效统一的处理。AgriFM综合利用来自MODIS、Landsat-8/9和Sentinel-2三颗卫星的时序密集数据流,并在覆盖超过2500万个图像样本的全球代表性数据集上进行预训练,该数据集以土地覆盖产品作为监督信息。所构建的框架包含一个可灵活适配的解码器架构,能够动态融合学习到的时空表征,支持多样化的下游任务。综合评估表明,在所有下游任务中,AgriFM均显著优于传统深度学习方法及当前最先进的通用遥感基础模型。代码将在https://github.com/flyakon/AgriFM公开。

0
下载
关闭预览

相关内容

《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
遥感基础模型发展综述与未来设想
专知会员服务
20+阅读 · 2024年8月13日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员