We introduce a class of paired binary matrices called admixed arrays, which arise in analyses of large-scale genetic data and can be viewed as weighted edge colorings of complete bipartite graphs. This combinatorial structure gives rise to two natural families of marginal constraints: a row-sum constraint and a paired column-sum constraint, the latter inducing an inequality among entries of the matrix pair. We study the enumeration of admixed arrays under these constraints in dense regimes. First, we obtain exact formulas for the sizes of the families defined by each constraint in isolation and derive a finite-size criterion characterizing when one constraint is more restrictive than the other. In the large-dimension limit, this comparison simplifies to an entropy inequality, yielding an information-theoretic interpretation and a quantifiable error bound in the semi-regular case. We then analyze the asymptotic enumeration of the doubly constrained family in a semi-regular setting. Using saddle-point approximation and probabilistic techniques, we derive a detailed asymptotic expansion for the logarithm of the count, isolating an explicit fourth-moment contribution and establishing quantitative control of the higher-order remainder. A consequence of this analysis is a phenomenon absent from classical binary and integer matrix models: in the regime $N=Θ(P)$ with uniform margins and density bounded away from zero, the two constraint families obey the independence heuristic with a correction factor $1/\sqrt[4]{e}$ rather than the familiar $e^{\pm1/2}$. Numerical experiments corroborate the analytical approximations, and we implement and extend an algorithm of Miller and Harrison (2013) as open-source software to enumerate constrained admixed arrays.


翻译:我们引入一类称为混合数组的配对二值矩阵,这类矩阵出现在大规模遗传数据分析中,可视为完全二部图上的加权边着色。该组合结构引出了两类自然边际约束:行和约束与配对列和约束,后者在矩阵对的元素间诱导出不等式关系。我们研究稠密约束条件下混合数组的计数问题。首先,分别获得单类约束所定义族的精确计数公式,并推导出有限尺寸判据,用以刻画一类约束何时比另一类更具约束力。在大尺寸极限下,该比较简化为熵不等式,从而在近乎正则情形下获得信息论解释与可量化的误差界。随后,我们分析近乎正则设置下双重约束族的渐近计数。运用鞍点近似与概率方法,推导出计数对数的详细渐近展开式,分离出明确的四阶矩贡献项,并对高阶余项建立定量控制。该分析揭示了一个经典二值矩阵与整数矩阵模型中不存在的现象:在边界密度远离零的均匀边际约束下,当参数满足$N=Θ(P)$时,两类约束族服从带修正因子$1/\sqrt[4]{e}$的独立性启发式方法,而非常见的$e^{\pm1/2}$。数值实验验证了分析近似,我们还将Miller与Harrison(2013)的算法实现并扩展为开源软件,用于计数约束混合数组。

0
下载
关闭预览

相关内容

具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
专知会员服务
54+阅读 · 2021年10月16日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员