Lineage marker population frequencies can serve as one way to express evidential value in forensic genetics. However, for high-quality whole mitochondrial DNA genome sequences (mitogenomes), population data remain limited. In this paper, we offer a new method, MitoFREQ, for estimating the population frequencies of mitogenomes. MitoFREQ uses the mitogenome resources HelixMTdb and gnomAD, harbouring information from 195,983 and 56,406 mitogenomes, respectively. Neither HelixMTdb nor gnomAD can be queried directly for individual mitogenome frequencies, but offers single nucleotide variant (SNV) allele frequencies for each of 30 "top-level" haplogroups (TLHG). We propose using the HelixMTdb and gnomAD resources by classifying a given mitogenome within the TLHG scheme and subsequently using the frequency of its rarest SNV within that TLHG weighted by the TLHG frequency. We show that this method is guaranteed to provide a higher population frequency estimate than if a refined haplogroup and its SNV frequencies were used. Further, we show that top-level haplogrouping can be achieved by using only 227 specific positions for 99.9% of the tested mitogenomes, potentially making the method available for low-quality samples. The method was tested on two types of datasets: high-quality forensic reference datasets and a diverse collection of scrutinised mitogenomes from GenBank. This dual evaluation demonstrated that the approach is robust across both curated forensic data and broader population-level sequences. This method produced likelihood ratios in the range of 100-100,000, demonstrating its potential to strengthen the statistical evaluation of forensic mtDNA evidence. We have developed an open-source R package `mitofreq` that implements our method, including a Shiny app where custom TLHG frequencies can be supplied.


翻译:谱系标记的群体频率可作为法医遗传学中证据价值的一种表达方式。然而,对于高质量的全线粒体DNA基因组序列(线粒体基因组),群体数据仍然有限。本文提出了一种估计线粒体基因组群体频率的新方法——MitoFREQ。MitoFREQ利用HelixMTdb和gnomAD这两个线粒体基因组资源库,分别包含195,983个和56,406个线粒体基因组的信息。HelixMTdb和gnomAD均无法直接查询单个线粒体基因组的频率,但提供了30个“顶级”单倍群(TLHG)中每个单核苷酸变异(SNV)的等位基因频率。我们提出的方法是:首先将给定的线粒体基因组归类到TLHG框架中,然后使用该TLHG内其最稀有SNV的频率,并以该TLHG的频率进行加权。我们证明,与使用更精细的单倍群及其SNV频率相比,此方法保证能提供更高的群体频率估计值。此外,我们证明对于99.9%的测试线粒体基因组,仅需使用227个特定位点即可实现顶级单倍群划分,这使该方法可能适用于低质量样本。该方法在两类数据集上进行了测试:高质量的法医参考数据集和来自GenBank的经过严格审查的多样化线粒体基因组集合。这种双重评估表明,该方法在处理经过人工整理的法医数据和更广泛的群体水平序列时均具有稳健性。该方法产生的似然比范围在100至100,000之间,证明了其在加强法医mtDNA证据统计评估方面的潜力。我们开发了一个开源R包`mitofreq`来实现我们的方法,其中包括一个Shiny应用程序,用户可以在其中提供自定义的TLHG频率。

0
下载
关闭预览

相关内容

MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
MIT线性代数(Linear Algebra)中文笔记
专知
53+阅读 · 2019年11月4日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员