High-throughput pheno-, geno-, and envirotyping allows characterization of plant genotypes and the trials they are evaluated in, producing different types of -omics data. These different data modalities can be integrated into statistical or machine learning models for genomic prediction in several ways. One commonly used approach within the analysis of multi-environment trial data in plant breeding is to create linear or nonlinear kernels which are subsequently used in linear mixed models (LMMs) to model genotype by environment (GxE) interactions. Current implementations of these kernel-based LMMs present a number of opportunities in terms of methodological extensions. Here we show how these models can be implemented in standard software, allowing direct restricted maximum likelihood (REML) estimation of all parameters. We also extend the models by combining the kernels with unstructured covariance matrices for three-way interactions in genotype by environment by management (GxExM) datasets, while simultaneously allowing for environment-specific genetic variances. We show how the models incorporating nonlinear kernels and heterogeneous variances maximize the amount of genetic variance captured by environmental covariables and perform best in prediction settings. We discuss the opportunities regarding models with multiple kernels or kernels obtained after environmental feature selection, as well as the similarities to models regressing phenotypes on latent and observed environmental covariables. Finally, we discuss the flexibility provided by our implementation in terms of modeling complex plant breeding datasets, allowing for straightforward integration of phenomics, enviromics, and genomics.


翻译:高通量表型组学、基因组学及环境组学技术使得植物基因型及其评估试验的表征成为可能,并产生不同类型的组学数据。这些不同模态的数据可通过多种方式整合至统计或机器学习模型中,以实现基因组预测。植物育种多环境试验数据分析中常用的方法之一是构建线性或非线性核函数,随后在线性混合模型(LMMs)中用于模拟基因型×环境(GxE)互作。当前这些基于核的LMMs实现在方法学扩展方面存在诸多可能性。本文展示了如何在标准软件中实现这些模型,从而允许对所有参数进行直接限制性最大似然(REML)估计。我们进一步扩展了这些模型:通过将核函数与非结构化协方差矩阵相结合,处理基因型×环境×管理(GxExM)数据集中的三向互作,同时允许环境特异性遗传方差的存在。研究表明,结合非线性核函数与异质方差的模型能够最大化环境协变量捕获的遗传方差,并在预测场景中表现最优。我们探讨了多核模型及环境特征选择后所得核函数模型的潜力,以及与基于潜在及观测环境协变量的表型回归模型的相似性。最后,我们讨论了所实现方案在复杂植物育种数据集建模方面的灵活性,这为表型组学、环境组学与基因组学的无缝整合提供了可能。

0
下载
关闭预览

相关内容

【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
【港科大博士论文】生成模型的统计和结构特性,338页pdf
专知会员服务
47+阅读 · 2022年12月20日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
北京思腾合力科技有限公司
35+阅读 · 2017年11月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
【港科大博士论文】生成模型的统计和结构特性,338页pdf
专知会员服务
47+阅读 · 2022年12月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员