The coalescent is a foundational model of latent genealogical trees under neutral evolution, but suffers from intractable sampling probabilities. Methods for approximating these sampling probabilities either introduce bias or fail to scale to large sample sizes. We show that a class of cost functionals of the coalescent with recurrent mutation and a finite number of alleles converge to tractable processes in the infinite-sample limit. A particular choice of costs yields insight about importance sampling methods, which are a classical tool for coalescent sampling probability approximation. These insights reveal that the behaviour of coalescent importance sampling algorithms differs markedly from standard sequential importance samplers, with or without resampling. We conduct a simulation study to verify that our asymptotics are accurate for algorithms with finite (and moderate) sample sizes. Our results constitute the first theoretical description of large-sample importance sampling algorithms for the coalescent, provide heuristics for the a priori optimisation of computational effort, and identify settings where resampling is harmful for algorithm performance. We observe strikingly different behaviour for importance sampling methods under the infinite sites model of mutation, which is regarded as a good and more tractable approximation of finite alleles mutation in most respects.


翻译:溯祖模型是中性演化下潜在谱系树的基础模型,但其采样概率难以处理。近似这些采样概率的方法要么引入偏差,要么无法扩展到大规模样本。我们证明,在无限样本极限下,一类具有重复突变和有限等位基因数的溯祖模型代价泛函会收敛到可处理的过程。特定代价函数的选择为重要性采样方法提供了洞见,而重要性采样是近似溯祖采样概率的经典工具。这些发现揭示,无论是否采用重采样,溯祖重要性采样算法的行为都与标准序列重要性采样器存在显著差异。我们通过模拟研究验证了我们的渐近理论在有限(及中等)样本量算法中的准确性。我们的研究首次从理论上描述了大样本溯祖重要性采样算法,为计算资源的先验优化提供了启发式方法,并识别了重采样会损害算法性能的场景。我们观察到在无限位点突变模型下重要性采样方法表现出截然不同的行为,而该模型在大多数方面被视为有限等位基因突变的良好且更易处理的近似。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
专知会员服务
49+阅读 · 2021年8月1日
专知会员服务
52+阅读 · 2020年12月10日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员