ZINBGT: Exploratory Data Analysis of Single-Cell Transcriptomic Expression Using Mixture Models - 专知论文

会员服务 ·

0

单细胞 · 数据集 · 混合 · 混合模型 · 转录 ·

ZINBGT: Exploratory Data Analysis of Single-Cell Transcriptomic Expression Using Mixture Models

翻译：[ZINBGT：使用混合模型进行单细胞转录组表达的探索性数据分析]

Toby Kettlewell,Yiyi Cheng,Thomas D. Otto,Vincent Macaulay,Mayetri Gupta

from arxiv, 11 pages, 28 pages with appendix, 6 figures, 14 figures with appendix

Single-cell transcriptomic data approximates the abundance of proteins at a high resolution, but its noisiness necessitates transformation by a pipeline of methods before analysis and inference. In the absence of robust validation of these pipelines and methods, it remains unclear how best to process any particular dataset. To compensate for this, popular visualisation methods, e.g., t-SNE and UMAP, are commonly used to produce descriptions of datasets. Such visualisations are incomplete and provide subjective descriptions of samples rather than statistically meaningful statements about technical noise or biology. In this paper, we introduce the Zero-Inflated Negative-Binomial with Geometric Tail (ZINBGT), a mixture-model-based strategy for producing interpretable visualisations of each gene's expression across cells, along with diagnostic summaries that use Wasserstein distance to highlight outlier genes. These diagnostics are used to reveal an outlier gene within a T. brucei sample. This method is applied to a human immune-cell dataset, highlighting the relationship between sparsity, mean, and spread across genes, as well as revealing an issue with the use of zero-inflated negative-binomial distributions to model single-cell RNA data. An investigation of simulated datasets intended to replicate the immune-cell data revealed discrepancies with the ground truth, establishing purposes for which these simulated datasets are unsuitable. Finally, we list a number of different domains to which this method can be applied.

翻译：[单细胞转录组数据以高分辨率近似蛋白质丰度，但其噪声特性要求在分析和推断之前通过一系列方法进行转换。由于缺乏对这些流程和方法的稳健验证，如何最佳处理特定数据集仍不明确。为弥补这一不足，常用可视化方法（如t-SNE和UMAP）生成数据集描述。此类可视化不完整，仅提供样本的主观描述，而非关于技术噪声或生物意义的统计学有效结论。本文提出带几何尾部的零膨胀负二项分布（ZINBGT），一种基于混合模型的策略，用于生成每个基因在细胞间表达的可解释可视化，以及利用Wasserstein距离突出离群基因的诊断摘要。这些诊断方法用于揭示T. brucei样本中的一个离群基因。该方法被应用于人类免疫细胞数据集，揭示了基因间稀疏性、均值和离散度的关系，并指出使用零膨胀负二项分布建模单细胞RNA数据存在的问题。对旨在复制免疫细胞数据的模拟数据集的调查显示其与真实数据存在差异，明确了这些模拟数据不适合的用途。最后，我们列举了该方法可应用的多个不同领域。]

0

相关内容

单细胞

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

专知会员服务

9+阅读 · 2025年8月1日

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

专知会员服务

24+阅读 · 2023年3月12日

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

专知会员服务

12+阅读 · 2022年12月19日

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

专知会员服务

13+阅读 · 2022年9月12日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知会员服务

54+阅读 · 2022年4月28日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【资源】图像分割/显著性检测数据集列表

【资源】图像分割/显著性检测数据集列表

专知

13+阅读 · 2019年5月22日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法（附代码）

谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法（附代码）

论智

13+阅读 · 2018年6月8日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

微流控阵列单细胞电化学分析新方法及其在癌症干细胞识别中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

The bixplot: A variation on the boxplot suited for bimodal data

The bixplot: A variation on the boxplot suited for bimodal data

Arxiv

0+阅读 · 5月4日

Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

Arxiv

0+阅读 · 5月1日

Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Arxiv

0+阅读 · 4月17日

A Bayesian Finite Mixture Model Approach for Mixed-type Data Clustering and Variable Selection with Censored Biomarkers

Arxiv

0+阅读 · 4月10日

A Quasi-Regression Method for the Mediation Analysis of Zero-Inflated Single-Cell Data

Arxiv

0+阅读 · 4月9日

Fast and Scalable Cellwise-Robust Ensembles for High-Dimensional Data

Arxiv

0+阅读 · 3月21日

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Arxiv

0+阅读 · 3月11日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

Arxiv

0+阅读 · 3月2日

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

专知会员服务

9+阅读 · 2025年8月1日

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

专知会员服务

24+阅读 · 2023年3月12日

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

专知会员服务

12+阅读 · 2022年12月19日

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

专知会员服务

13+阅读 · 2022年9月12日

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

《用于医疗数据的分析和机器学习》佐治亚理工学院137页博士论文

专知会员服务

26+阅读 · 2022年7月21日

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知会员服务

54+阅读 · 2022年4月28日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【资源】图像分割/显著性检测数据集列表

【资源】图像分割/显著性检测数据集列表

专知

13+阅读 · 2019年5月22日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法（附代码）

谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法（附代码）

论智

13+阅读 · 2018年6月8日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

The bixplot: A variation on the boxplot suited for bimodal data

The bixplot: A variation on the boxplot suited for bimodal data

Arxiv

0+阅读 · 5月4日

Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

Arxiv

0+阅读 · 5月1日

Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Arxiv

0+阅读 · 4月17日

A Bayesian Finite Mixture Model Approach for Mixed-type Data Clustering and Variable Selection with Censored Biomarkers

Arxiv

0+阅读 · 4月10日

A Quasi-Regression Method for the Mediation Analysis of Zero-Inflated Single-Cell Data

Arxiv

0+阅读 · 4月9日

Fast and Scalable Cellwise-Robust Ensembles for High-Dimensional Data

Arxiv

0+阅读 · 3月21日

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Arxiv

0+阅读 · 3月11日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

Arxiv

0+阅读 · 3月2日

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Arxiv

0+阅读 · 2月27日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

微流控阵列单细胞电化学分析新方法及其在癌症干细胞识别中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员