Visual question answering for crop disease analysis requires accurate visual understanding and reliable language generation. This work presents a lightweight vision-language framework for crop and disease identification from leaf images. The proposed approach combines a Swin Transformer vision encoder with sequence-to-sequence language decoders. A two-stage training strategy is adopted to improve visual representation learning and cross-modal alignment. The model is evaluated on a large-scale crop disease dataset using classification and natural language generation metrics. Experimental results show high accuracy for both crop and disease identification. The framework also achieves strong performance on BLEU, ROUGE and BERTScore. Our proposed models outperform large-scale vision-language baselines while using significantly fewer parameters. Explainability is assessed using Grad-CAM and token-level attribution. Qualitative results demonstrate robust performance under diverse user-driven queries. These findings highlight the effectiveness of task-specific visual pretraining for crop disease visual question answering.


翻译:作物病害分析的视觉问答任务需要精确的视觉理解和可靠的语言生成。本研究提出了一种从叶片图像进行作物与病害识别的轻量级视觉语言框架。所提出的方法将 Swin Transformer 视觉编码器与序列到序列语言解码器相结合。采用两阶段训练策略以改进视觉表征学习和跨模态对齐。该模型在一个大规模的作物病害数据集上使用分类和自然语言生成指标进行评估。实验结果显示其在作物和病害识别方面均具有高准确率。该框架在 BLEU、ROUGE 和 BERTScore 指标上也取得了优异的性能。我们提出的模型在显著减少参数量的同时,性能优于大规模视觉语言基线模型。使用 Grad-CAM 和词元级归因方法评估了模型的可解释性。定性结果表明,该框架在多样化的用户驱动查询下均表现出鲁棒的性能。这些发现凸显了面向特定任务的视觉预训练对于作物病害视觉问答的有效性。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
41+阅读 · 2021年6月19日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员