Extreme low-data fine-grained classification is common in expert domains where labeling is expensive, yet practitioners still need principled guidance for selecting pretrained encoders. We study emerald inclusion grading with a custom dataset of labeled images across three classes and ask: under matched backbone capacity, how does pretraining objective affect downstream representation quality? We compare four frozen ViT-B/16 encoders trained with supervised classification, contrastive learning (SigLIP2), masked reconstruction (MAE), and self-distillation (DINOv3), and evaluate them with leave-one-out cross-validation using linear and nonlinear probes. To control statistical noise in the low-N regime, we use permutation testing (N=1000) on macro one-vs-rest AUC. Supervised and contrastive encoders provide the strongest linear separability (logistic AUC: 0.768 and 0.735; SVM AUC: 0.739 and 0.697), while MAE improves under nonlinear probes (XGBoost AUC: 0.713). We find that DINOv3 underperforms across probe families in this domain. These results support a practical recommendation for extreme low-data FGVC: prioritize margin-enforcing pretraining objectives when data scarcity restricts probing to linear decision rules, and consider reconstruction-style encoders when nonlinear classifiers are feasible given dataset constraints.


翻译:极低数据量下的细粒度分类常见于标注成本高昂的专家领域,但从业者仍需要原则性指导来选择预训练编码器。我们利用自定义的三类标注图像数据集研究祖母绿内含物分级,并探究以下问题:在匹配骨干网络容量的前提下,预训练目标如何影响下游表示质量?我们比较了使用监督分类、对比学习(SigLIP2)、掩码重建(MAE)和自蒸馏(DINOv3)训练的四种冻结ViT-B/16编码器,通过留一法交叉验证结合线性和非线性探针进行评估。为控制低样本量下的统计噪声,我们对宏观一对多AUC实施置换检验(N=1000)。监督式和对比式编码器表现出最强的线性可分性(逻辑回归AUC:0.768和0.735;SVM AUC:0.739和0.697),而MAE在非线性探针下表现提升(XGBoost AUC:0.713)。我们发现DINOv3在该领域各探针家族中表现均不佳。这些结果支持针对极低数据量细粒度分类的实用建议:当数据稀缺限制探针只能采用线性决策规则时,优先选择具有边界强化特性的预训练目标;若数据集条件允许使用非线性分类器,则可考虑基于重建范式的编码器。

0
下载
关闭预览

相关内容

细粒度图像分类的深度学习方法
专知会员服务
43+阅读 · 2021年10月18日
专知会员服务
39+阅读 · 2021年5月16日
专知会员服务
32+阅读 · 2020年9月2日
基于深度神经网络的少样本学习综述
专知会员服务
173+阅读 · 2020年4月22日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
小样本学习(Few-shot Learning)综述
机器之心
18+阅读 · 2019年4月1日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员