Agricultural landscape segmentation in the Global South is challenging as it is characterized by fragmented plots, high intra-class variance, and a scarcity of labeled training data. Recent advances in segmentation have been made by Multimodal Large Language Models (MLLMs). However, current approaches encounter critical context length bottlenecks and a domain alignment gap in understanding satellite features. We address these limitations through MAgSeg, a novel, decoder-free MLLM segmentation approach. MAgSeg is an architecturally efficient approach that enables standard MLLMs to perform segmentation of complex smallholder agricultural landscapes from high-resolution satellite imagery, without requiring auxiliary vision decoders. We introduce a novel instruction tuning data format designed to enable scalable fine-tuning and post-training on high resolution satellite imagery, which enables MAgSeg to learn from the global context of the image while generating text tokens for only a patch within the image. Extensive evaluations on datasets spanning three countries in the Global South demonstrate that MAgSeg significantly outperforms state-of-the-art MLLM baselines, offering a scalable solution to map smallholder agricultural environments.


翻译:全球南方的农业景观分割具有挑战性,其特点是地块破碎、类内方差高且标注训练数据稀缺。近年来,多模态大语言模型(MLLMs)在分割领域取得了进展。然而,现有方法在理解卫星特征时面临关键的上下文长度瓶颈和领域对齐鸿沟。我们通过MAgSeg——一种无解码器的新型MLLM分割方法——来解决这些局限。MAgSeg是一种架构高效的方法,使标准MLLMs能够无需辅助视觉解码器即可从高分辨率卫星图像中分割复杂的小农户农业景观。我们引入了一种新颖的指令微调数据格式,旨在实现高分辨率卫星图像的可扩展微调和后训练,使MAgSeg能够从图像的全局上下文中学习,同时仅生成图像内某个补丁的文本令牌。在覆盖全球南方三个国家数据集上的广泛评估表明,MAgSeg显著优于最先进的MLLM基准方法,为绘制小农户农业环境提供了可扩展的解决方案。

0
下载
关闭预览

相关内容

MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
本周精选共读论文《计算机视觉图像分割》六篇
人工智能前沿讲习班
10+阅读 · 2019年4月1日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
相关资讯
本周精选共读论文《计算机视觉图像分割》六篇
人工智能前沿讲习班
10+阅读 · 2019年4月1日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员