Population-scale pangenome analysis increasingly requires representations that unify single-nucleotide and structural variation while remaining scalable across large cohorts. Existing formats are typically sequence-centric, path-centric, or sample-centric, and often obscure population structure or fail to exploit carrier sparsity. We introduce the H1 pan-graph-matrix, an allele-centric representation that encodes exact haplotype membership using adaptive per-allele compression. By treating alleles as first-class objects and selecting optimal encodings based on carrier distribution, H1 achieves near-optimal storage across both common and rare variants. We further introduce H2, a path-centric dual representation derived from the same underlying allele-haplotype incidence information that restores explicit haplotype ordering while remaining exactly equivalent in information content. Using real human genome data, we show that this representation yields substantial compression gains, particularly for structural variants, while remaining equivalent in information content to pangenome graphs. H1 provides a unified, population-aware foundation for scalable pangenome analysis and downstream applications such as rare-variant interpretation and drug discovery.


翻译:群体规模的泛基因组分析日益需要能够统一单核苷酸变异与结构变异、同时在大规模队列中保持可扩展性的表示方法。现有格式通常以序列为中心、以路径为中心或以样本为中心,常常模糊了群体结构或未能利用携带者稀疏性。我们提出了H1泛图矩阵,这是一种等位基因中心的表示方法,它采用自适应等位基因压缩技术对精确的单倍型成员关系进行编码。通过将等位基因作为一等对象,并根据携带者分布选择最优编码方案,H1在常见和罕见变异上均实现了接近最优的存储效率。我们进一步提出了H2,这是一种从相同底层等位基因-单倍型关联信息导出的以路径为中心的双重表示,它在保持信息内容完全等价的同时恢复了显式的单倍型排序。使用真实人类基因组数据,我们证明该表示能实现显著的压缩增益(特别是对于结构变异),同时保持与泛基因组图在信息内容上的等价性。H1为可扩展的泛基因组分析及下游应用(如罕见变异解读和药物发现)提供了统一且具有群体感知能力的基础框架。

0
下载
关闭预览

相关内容

详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
0+阅读 · 12分钟前
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
0+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员