Masked autoencoders are scalable learners of cellular morphology

Oren Kraus,Kian Kenyon-Dean,Saber Saberian,Maryam Fallah,Peter McLean,Jess Leung,Vasudev Sharma,Ayla Khan,Jia Balakrishnan,Safiye Celik,Maciej Sypetkowski,Chi Vicky Cheng,Kristen Morse,Maureen Makes,Ben Mabey,Berton Earnshaw

from arxiv, 4 pages, 4 figures

Inferring biological relationships from cellular phenotypes in high-content microscopy screens provides significant opportunity and challenge in biological research. Prior results have shown that deep vision models can capture biological signal better than hand-crafted features. This work explores how weakly supervised and self-supervised deep learning approaches scale when training larger models on larger datasets. Our results show that both CNN- and ViT-based masked autoencoders significantly outperform weakly supervised models. At the high-end of our scale, a ViT-L/8 trained on over 3.5-billion unique crops sampled from 95-million microscopy images achieves relative improvements as high as 28% over our best weakly supervised models at inferring known biological relationships curated from public databases.

翻译：从高内涵显微镜筛选中的细胞表型推断生物学关系，为生物学研究提供了重要机遇与挑战。先前研究表明，深度视觉模型比手工特征能更有效地捕获生物信号。本研究探索了弱监督与自监督深度学习方法在更大数据集上训练更大模型时的扩展性。结果表明，基于CNN与ViT的掩码自编码器模型显著优于弱监督模型。在扩展性研究的最高端，一个ViT-L/8模型在从9500万张显微图像中采样的超过35亿个独特作物区域上训练后，相较于最佳弱监督模型，在推断公共数据库收录的已知生物学关系时实现了高达28%的相对性能提升。

相关内容

自编码器

关注 141

自动编码器是一种人工神经网络，用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示（编码），通常用于降维。与简化方面一起，学习了重构方面，在此，自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式，从而得到其名称。基本模型存在几种变体，其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题，从面部识别到获取单词的语义。

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

Nat. Biotechnol. | 机器学习为生物库驱动的药物发现提供动力

专知会员服务

11+阅读 · 2022年9月12日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日