Accurate crop yield prediction relies on diverse data streams, including satellite, meteorological, soil, and topographic information. However, despite rapid advances in machine learning, existing approaches remain crop- or region-specific and require data engineering efforts. This limits scalability, reproducibility, and operational deployment. This study introduces UniCrop, a universal and reusable data pipeline designed to automate the acquisition, cleaning, harmonisation, and engineering of multi-source environmental data for crop yield prediction. For any given location, crop type, and temporal window, UniCrop automatically retrieves, harmonises, and engineers over 200 environmental variables (Sentinel-1/2, MODIS, ERA5-Land, NASA POWER, SoilGrids, and SRTM), reducing them to a compact, analysis-ready feature set utilising a structured feature reduction workflow with minimum redundancy maximum relevance (mRMR). To validate, UniCrop was applied to a rice yield dataset comprising 557 field observations. Using only the selected 15 features, four baseline machine learning models (LightGBM, Random Forest, Support Vector Regression, and Elastic Net) were trained. LightGBM achieved the best single-model performance (RMSE = 465.1 kg/ha, $R^2 = 0.6576$), while a constrained ensemble of all baselines further improved accuracy (RMSE = 463.2 kg/ha, $R^2 = 0.6604$). UniCrop contributes a scalable and transparent data-engineering framework that addresses the primary bottleneck in operational crop yield modelling: the preparation of consistent and harmonised multi-source data. By decoupling data specification from implementation and supporting any crop, region, and time frame through simple configuration updates, UniCrop provides a practical foundation for scalable agricultural analytics. The code and implementation documentation are shared in https://github.com/CoDIS-Lab/UniCrop.


翻译:准确的作物产量预测依赖于多样化的数据流,包括卫星、气象、土壤和地形信息。然而,尽管机器学习领域进展迅速,现有方法仍局限于特定作物或区域,且需要大量数据工程工作。这限制了其可扩展性、可重复性及业务部署能力。本研究介绍了UniCrop,一个通用且可复用的数据流水线,旨在为作物产量预测自动化地完成多源环境数据的获取、清洗、协调和工程化处理。对于任意给定的地理位置、作物类型和时间窗口,UniCrop能自动检索、协调并工程化处理超过200个环境变量(源自Sentinel-1/2、MODIS、ERA5-Land、NASA POWER、SoilGrids和SRTM),并通过一个结构化的特征约简工作流程(采用最小冗余最大相关性,mRMR)将其缩减为一个紧凑、可直接用于分析的特征集。为验证其有效性,我们将UniCrop应用于一个包含557个田间观测数据的水稻产量数据集。仅使用筛选出的15个特征,我们训练了四个基线机器学习模型(LightGBM、随机森林、支持向量回归和弹性网络)。LightGBM取得了最佳的单模型性能(RMSE = 465.1 kg/ha,$R^2 = 0.6576$),而所有基线模型的约束集成进一步提升了精度(RMSE = 463.2 kg/ha,$R^2 = 0.6604$)。UniCrop提供了一个可扩展且透明的数据工程框架,解决了业务化作物产量建模中的主要瓶颈:一致且协调的多源数据准备。通过将数据规范与具体实现解耦,并支持通过简单的配置更新来适应任何作物、区域和时间范围,UniCrop为可扩展的农业分析提供了实用基础。代码与实现文档共享于 https://github.com/CoDIS-Lab/UniCrop。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员