Two-sample testing is a fundamental tool for detecting distributional differences across scientific domains, but classical tests (including kernel-based tests) can be ineffective on high-dimensional structured data such as images. Recent deep two-sample tests improve sensitivity in these settings by learning informative representations, yet they provide limited insight into which data features drive rejection of the null hypothesis $H_0$. To address this issue, we propose a counterfactual explanation framework for deep two-sample testing that generates sample-level edits moving observations from a source group toward a target group while explicitly reducing the discrepancy measured by the test. Our method combines a diffusion autoencoder with a pretrained deep two-sample test model and optimizes a maximum mean discrepancy (MMD) objective in the test model's representation space to produce plausible counterfactuals. We quantify distribution-level effects through changes in the test statistic and the resulting two-sample p-values. We evaluate the method on synthetic 2D shape datasets and two MRI cohorts. Across both settings, the counterfactual transformations consistently increase p-values relative to the original samples, indicating that the edited source set becomes statistically closer to the target distribution under the test. We measure minimality using LPIPS to ensure the counterfactuals remain close to the original samples. The resulting edits provide interpretable evidence of the features associated with the detected group differences. On MRI, the localized changes are consistent with known anatomical differences between cohorts.


翻译:双样本检验是跨科学领域检测分布差异的基本工具,但经典检验方法(包括基于核的检验)在处理图像等高维结构化数据时效果有限。最新提出的深度双样本检验通过学习信息表征提升了对这类数据的敏感性,却未能充分揭示驱动零假设$H_0$被拒绝的数据特征。针对该问题,本文提出面向深度双样本检验的反事实解释框架,通过生成样本级编辑操作,将观测样本从源群体向目标群体迁移,同时显式降低检验方法所测量的分布差异。该方法将扩散自编码器与预训练的深度双样本检验模型相结合,通过在检验模型表征空间中优化最大均值差异(MMD)目标函数,生成合理的反事实样本。我们通过检验统计量及对应的双样本p值变化量化分布层面的效应。在合成二维形状数据集与两个MRI群体队列上的实验表明:反事实变换一致性地提升了原始样本的p值,表明编辑后源集与目标分布在统计检验下更为接近。采用LPIPS测度最小化原则,确保反事实样本与原样本保持高度相似。所生成的编辑结果为检测到的群体差异特征提供了可解释性证据。在MRI数据上,局部化变化与已知的群体队列解剖学差异特征一致。

0
下载
关闭预览

相关内容

Group一直是研究计算机支持的合作工作、人机交互、计算机支持的协作学习和社会技术研究的主要场所。该会议将社会科学、计算机科学、工程、设计、价值观以及其他与小组工作相关的多个不同主题的工作结合起来,并进行了广泛的概念化。官网链接:https://group.acm.org/conferences/group20/
专知会员服务
62+阅读 · 2021年3月25日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
【紫冬新作】人脸识别新突破:真实场景下的大规模双样本学习方法
中国科学院自动化研究所
11+阅读 · 2019年3月7日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
专知会员服务
62+阅读 · 2021年3月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员