Multi-source and multi-modal datasets are increasingly common in scientific research, yet they often exhibit block-wise missingness, where entire modalities are systematically absent in some sources or no single source contains all modalities. This structured missingness poses major challenges for two-sample hypothesis testing. Standard approaches, such as imputation or complete-case analysis, may introduce bias or suffer efficiency loss, especially under missingness-not-at-random mechanisms. To address this challenge, we propose the Block-Pattern Enhanced Test, a general framework for constructing two-sample testing statistics that explicitly accounts for block-wise missingness. We show that the framework yields valid tests under a new condition allowing for missing-not-at-random mechanism. Building on this general framework, we further propose the Block-wise Rank In Similarity graph Edge-count (BRISE) test, which accommodate heterogeneous modalities using rank-based similarity graphs. Theoretically, we establish that the null distribution of BRISE converges to a $χ^2$ distribution, and that the test is consistent both in the standard asymptotic regime and in the high-dimensional low-sample-size setting under mild conditions. Simulation studies demonstrate that BRISE controls the type-I error rate and achieves strong power across a wide range of alternatives. Applications to two real-world datasets with block-wise missingness further illustrate the practical utility of the proposed method.


翻译:多源多模态数据集在科学研究中日益普遍,但它们常表现出块状缺失现象,即某些源中整个模态系统性缺失,或没有任何单一源包含全部模态。这种结构化缺失为两样本假设检验带来了重大挑战。标准方法(如插补或完整案例分析)可能引入偏差或导致效率损失,尤其在缺失非随机机制下。为应对这一挑战,我们提出块模式增强检验,这是一个构建两样本检验统计量的通用框架,能显式处理块状缺失问题。我们证明该框架在允许缺失非随机机制的新条件下可产生有效检验。基于此通用框架,我们进一步提出块状秩相似图边计数检验,该方法通过基于秩的相似图适应异质模态。理论上,我们证明了BRISE的零分布收敛于$χ^2$分布,且该检验在标准渐近体系及温和条件下的高维低样本量设定中均具有一致性。模拟研究表明,BRISE能控制第一类错误率,并在广泛的备择假设下获得强检验功效。在两个具有块状缺失的真实数据集上的应用进一步说明了所提方法的实用价值。

0
下载
关闭预览

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
专知会员服务
26+阅读 · 2021年5月23日
专知会员服务
38+阅读 · 2021年5月10日
缺失数据统计分析,第三版,462页pdf
专知会员服务
110+阅读 · 2020年2月28日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
缺失数据统计分析,第三版,462页pdf
专知
48+阅读 · 2020年2月28日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员