Post-clustering inference in single-cell RNA sequencing (scRNA-seq) analysis presents significant challenges in controlling Type I error during differential expression analysis. Data fission, a promising approach that aims to split data into two independent parts, relies on strong parametric assumptions of non-mixture distributions that are inherently violated in clustered data. To address this limitation, we introduce conditional data fission, an extension designed to decompose each mixture component into two independent parts. However, we demonstrate that applying such conditional data fission to mixture distributions requires prior knowledge of the clustering structure to ensure valid post-clustering inference. This arises from the need to accurately estimate component-specific scale parameters, which are critical for performing decomposition while maintaining independence. We theoretically quantify how biases in estimating these parameters lead to inflated Type I error rates due to deviations from independence. Given that mixture components are typically unknown in practice, our results underscore the fundamental difficulty of applying data fission in real-world settings, despite its prior proposal as a solution for post-clustering inference.


翻译:单细胞RNA测序(scRNA-seq)分析中的后聚类推断在差异表达分析中面临控制I类错误的重大挑战。数据裂变作为一种有前景的方法,旨在将数据分解为两个独立部分,但其依赖于非混合分布这一强参数假设,而该假设在聚类数据中天然不成立。为克服此局限,我们提出条件数据裂变——这一扩展方法旨在将每个混合成分分解为两个独立部分。然而,我们证明将此类条件数据裂变应用于混合分布时,需要预先掌握聚类结构才能确保有效的后聚类推断。这是因为需要准确估计成分特有的尺度参数——这些参数在执行分解并保持独立性的过程中至关重要。我们从理论上量化了这些参数估计偏差如何因偏离独立性而导致I类错误率膨胀。鉴于实践中的混合成分通常未知,我们的结果揭示了数据裂变在实际场景中应用的根本性困难,尽管其先前曾被提出作为后聚类推断的解决方案。

0
下载
关闭预览

相关内容

【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
异质信息网络分析与应用综述,软件学报-北京邮电大学
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员