Tree canopy detection from aerial imagery is an important task for environmental monitoring, urban planning, and ecosystem analysis. Simulating real-life data annotation scarcity, the Solafune Tree Canopy Detection competition provides a small and imbalanced dataset of only 150 annotated images, posing significant challenges for training deep models without severe overfitting. In this work, we evaluate five representative architectures, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, and DINOv2, to assess their suitability for canopy segmentation under extreme data scarcity. Our experiments show that pretrained convolution-based models, particularly YOLOv11 and Mask R-CNN, generalize significantly better than pretrained transformer-based models. DeeplabV3, Swin-UNet and DINOv2 underperform likely due to differences between semantic and instance segmentation tasks, the high data requirements of Vision Transformers, and the lack of strong inductive biases. These findings confirm that transformer-based architectures struggle in low-data regimes without substantial pretraining or augmentation and that differences between semantic and instance segmentation further affect model performance. We provide a detailed analysis of training strategies, augmentation policies, and model behavior under the small-data constraint and demonstrate that lightweight CNN-based methods remain the most reliable for canopy detection on limited imagery.


翻译:航空影像中的树冠检测是环境监测、城市规划与生态系统分析的重要任务。为模拟真实数据标注稀缺场景,Solafune树冠检测竞赛提供了一个仅含150张标注图像的小规模不平衡数据集,这对训练深度模型避免严重过拟合提出了重大挑战。本研究评估了五种代表性架构——YOLOv11、Mask R-CNN、DeepLabv3、Swin-UNet与DINOv2,以探究其在极端数据稀缺条件下对树冠分割任务的适用性。实验表明,基于卷积的预训练模型(特别是YOLOv11与Mask R-CNN)的泛化能力显著优于基于Transformer的预训练模型。DeepLabv3、Swin-UNet与DINOv2表现欠佳,可能归因于语义分割与实例分割任务的差异、视觉Transformer的高数据需求以及强归纳偏置的缺失。这些发现证实:在没有充分预训练或数据增强的情况下,基于Transformer的架构在低数据场景中表现不佳,且语义分割与实例分割的差异会进一步影响模型性能。我们详细分析了小数据约束下的训练策略、增强方案与模型行为,并证明基于轻量级CNN的方法在有限影像的树冠检测任务中仍是最可靠的方案。

0
下载
关闭预览

相关内容

【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
针对预训练视觉模型的参数高效微调
专知会员服务
22+阅读 · 2024年2月7日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月6日
VIP会员
相关VIP内容
【KDD2024】面向课程图稀疏化的轻量级图神经网络搜索
专知会员服务
19+阅读 · 2024年6月25日
针对预训练视觉模型的参数高效微调
专知会员服务
22+阅读 · 2024年2月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员