Parameter-free representations outperform single-cell foundation models on downstream benchmarks - 专知论文

会员服务 ·

0

表示 · 单细胞 · 基准 · 基准测试 · 嵌入 ·

Parameter-free representations outperform single-cell foundation models on downstream benchmarks

翻译：参数无关表示在下游基准测试中优于单细胞基础模型

Huan Souza,Pankaj Mehta

Single-cell RNA sequencing (scRNA-seq) data exhibit strong and reproducible statistical structure. This has motivated the development of large-scale foundation models, such as TranscriptFormer, that use transformer-based architectures to learn a generative model for gene expression by embedding genes into a latent vector space. These embeddings have been used to obtain state-of-the-art (SOTA) performance on downstream tasks such as cell-type classification, disease-state prediction, and cross-species learning. Here, we ask whether similar performance can be achieved without utilizing computationally intensive deep learning-based representations. Using simple, interpretable pipelines that rely on careful normalization and linear methods, we obtain SOTA or near SOTA performance across multiple benchmarks commonly used to evaluate single-cell foundation models, including outperforming foundation models on out-of-distribution tasks involving novel cell types and organisms absent from the training data. Our findings highlight the need for rigorous benchmarking and suggest that the biology of cell identity can be captured by simple linear representations of single cell gene expression data.

翻译：单细胞RNA测序（scRNA-seq）数据展现出强烈且可复现的统计结构。这推动了大规模基础模型的发展，例如TranscriptFormer，它采用基于Transformer的架构，通过将基因嵌入潜在向量空间来学习基因表达的生成模型。这些嵌入表示已被用于在下游任务（如细胞类型分类、疾病状态预测和跨物种学习）中取得最先进的性能。本文探讨是否能在不使用计算密集型深度学习表示的情况下实现类似性能。通过采用依赖精细归一化和线性方法的简单、可解释流程，我们在多个常用于评估单细胞基础模型的基准测试中取得了最优或接近最优的性能，包括在涉及训练数据中未出现过的新细胞类型和生物体的分布外任务上超越基础模型。我们的研究结果强调了严格基准测试的必要性，并表明细胞身份的生物学特性可以通过单细胞基因表达数据的简单线性表示来捕捉。

0

相关内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

专知会员服务

9+阅读 · 2025年8月1日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

专知会员服务

12+阅读 · 2022年12月19日

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

专知会员服务

13+阅读 · 2022年9月12日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【北京大学PCM论文】单细胞测序技术最新进展（Recent Advances in Single-cell Sequencing Technologies）

【北京大学PCM论文】单细胞测序技术最新进展（Recent Advances in Single-cell Sequencing Technologies）

专知会员服务

14+阅读 · 2022年3月10日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

线粒体基因组来源的长非编码RNA通过与p53蛋白的相互作用调控细胞核基因的表达

国家自然科学基金

0+阅读 · 2016年12月31日

基于非参数贝叶斯推断的RNA甲基化谱分解及关键致病酶基因的预测

国家自然科学基金

0+阅读 · 2015年12月31日

AFF1和AFF4形成分子开关调控细胞分化

国家自然科学基金

0+阅读 · 2015年12月31日

近极限尺寸纳米结构的表面增强拉曼效应及其对红细胞携放氧能力的高通量检测

国家自然科学基金

0+阅读 · 2015年12月31日

TGF-β调控的LncRNAs在胚胎干细胞中功能及机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

靶向增强子的小激活RNA激活前列腺癌细胞E-钙粘蛋白表达的机制初探

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

组蛋白修饰与基因表达调控的相关性分析

国家自然科学基金

0+阅读 · 2014年12月31日

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Arxiv

0+阅读 · 3月10日

Distribution-free screening of spatially variable genes in spatial transcriptomics

Arxiv

0+阅读 · 3月10日

Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data

Arxiv

0+阅读 · 3月2日

SuiteEval: Simplifying Retrieval Benchmarks

Arxiv

0+阅读 · 2月20日

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Arxiv

0+阅读 · 2月19日

SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes

Arxiv

0+阅读 · 2月16日

Multiple Hypothesis Testing To Estimate The Number Of Communities in Stochastic Block Models

Arxiv

0+阅读 · 2月15日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Comparing Task-Agnostic Embedding Models for Tabular Data

Arxiv

0+阅读 · 2月4日

ScDiVa: Masked Discrete Diffusion for Joint Modeling of Single-Cell Identity and Expression

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

1+阅读 · 37分钟前

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

0+阅读 · 50分钟前

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

1+阅读 · 59分钟前

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

1+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

1+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

0+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

3+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

10+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

7+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

6+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

7+阅读 · 4月26日

相关VIP内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

专知会员服务

9+阅读 · 2025年8月1日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架

专知会员服务

12+阅读 · 2022年12月19日

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

Patterns | scMMGAN: 单细胞多模态GAN揭示三阴性乳腺癌单细胞数据中的空间模式

专知会员服务

13+阅读 · 2022年9月12日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【北京大学PCM论文】单细胞测序技术最新进展（Recent Advances in Single-cell Sequencing Technologies）

【北京大学PCM论文】单细胞测序技术最新进展（Recent Advances in Single-cell Sequencing Technologies）

专知会员服务

14+阅读 · 2022年3月10日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Arxiv

0+阅读 · 3月10日

Distribution-free screening of spatially variable genes in spatial transcriptomics

Arxiv

0+阅读 · 3月10日

Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data

Arxiv

0+阅读 · 3月2日

SuiteEval: Simplifying Retrieval Benchmarks

Arxiv

0+阅读 · 2月20日

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Arxiv

0+阅读 · 2月19日

SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes

Arxiv

0+阅读 · 2月16日

Multiple Hypothesis Testing To Estimate The Number Of Communities in Stochastic Block Models

Arxiv

0+阅读 · 2月15日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Comparing Task-Agnostic Embedding Models for Tabular Data

Arxiv

0+阅读 · 2月4日

ScDiVa: Masked Discrete Diffusion for Joint Modeling of Single-Cell Identity and Expression

Arxiv

0+阅读 · 2月3日

相关基金

线粒体基因组来源的长非编码RNA通过与p53蛋白的相互作用调控细胞核基因的表达

国家自然科学基金

0+阅读 · 2016年12月31日

基于非参数贝叶斯推断的RNA甲基化谱分解及关键致病酶基因的预测

国家自然科学基金

0+阅读 · 2015年12月31日

AFF1和AFF4形成分子开关调控细胞分化

国家自然科学基金

0+阅读 · 2015年12月31日

近极限尺寸纳米结构的表面增强拉曼效应及其对红细胞携放氧能力的高通量检测

国家自然科学基金

0+阅读 · 2015年12月31日

TGF-β调控的LncRNAs在胚胎干细胞中功能及机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

靶向增强子的小激活RNA激活前列腺癌细胞E-钙粘蛋白表达的机制初探

国家自然科学基金

0+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

组蛋白修饰与基因表达调控的相关性分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员