Too Few or Too Many? Sample Size Estimation for Differential Abundance Studies - 专知论文

会员服务 ·

0

样本 · 生物 · 小样本 · HTML · ML ·

Too Few or Too Many? Sample Size Estimation for Differential Abundance Studies

翻译：样本量过多或过少？差异丰度研究中的样本量估计

Michael Agronah,Benjamin M. Bolker

Determining an appropriate sample size for a study is a crucial step in planning scientific research. Appropriate sample size planning avoids both inadequate and inflated sample sizes. Inflated sample sizes wastes resources, time and effort of human subjects, and lives of experimental animals. Inadequate sample sizes, a much more common problem, wastes even more resources through the inability to detect biologically meaningful differences and encourages questionable research practices like $p$-hacking. Microbiome studies are particularly challenged by small sample sizes, particularly in studies of human subjects or expensive animal models. In practice, the statistical power of taxa within a differential abundance study is influenced by the effect size (typically quantified as fold change), mean abundance of individual taxa, and the number of samples. We present a novel approach for sample size calculation for differential abundance studies as a function of effect size, mean abundance and statistical power of taxa. Our method is implemented in the power.nb R package, available at https://michaelagronah.com/power.nb/articles/stub.html. We applied our model for sample size calculation using estimates of mean abundance and fold change of taxa obtained from thirty real-world microbiome datasets. Our results showed that differential abundance microbiome studies require larger sample sizes than are currently prevalent in the literature to achieve adequate statistical power. Our framework will help researchers make informed decisions about appropriate sample sizes.

翻译：确定适当的研究样本量是科研规划中的关键步骤。合理的样本量规划可避免样本量不足或过度膨胀：过度膨胀的样本量会浪费资源、时间、受试者精力及实验动物生命；而样本量不足这一更普遍的问题不仅因无法检测生物学上有意义的差异而浪费更多资源，还会助长$p$-值操纵等可疑研究行为。微生物组研究尤其受小样本量困扰，在人类受试者或昂贵动物模型的研究中尤为突出。实践中，差异丰度研究中各分类群的统计效力受效应量（通常以倍数变化量化）、各分类群平均丰度及样本数量共同影响。我们提出了一种差异丰度研究中样本量估算的新方法，该方法可基于效应量、平均丰度及分类群统计效力进行函数化计算。本方法已通过power.nb R包实现，详见https://michaelagronah.com/power.nb/articles/stub.html。利用三十个真实微生物组数据集获得的分类群平均丰度与倍数变化估计值，我们将模型应用于样本量计算。结果表明：要获得足够的统计效力，差异丰度微生物组研究所需的样本量远大于当前文献普遍采用的规模。本框架将帮助研究人员就合理样本量做出明智决策。

0

相关内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

小样本研究2022进展到哪了？华东师大最新《少样本学习》全面综述，从近三年200篇文献阐述小样本学习的演变、应用、挑战和机遇

小样本研究2022进展到哪了？华东师大最新《少样本学习》全面综述，从近三年200篇文献阐述小样本学习的演变、应用、挑战和机遇

专知会员服务

128+阅读 · 2022年5月19日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

小样本学习研究综述(中文版), 16页pdf

专知会员服务

204+阅读 · 2020年12月5日

清华大学张长水等最新《少样本学习FSL》2020综述论文，30页pdf414篇参考文献

清华大学张长水等最新《少样本学习FSL》2020综述论文，30页pdf414篇参考文献

专知会员服务

174+阅读 · 2020年9月13日

【香港科技大学】最新《小样本学习(Few-shot learning)》2020综述论文大全，34页pdf166篇参考文献

【香港科技大学】最新《小样本学习(Few-shot learning)》2020综述论文大全，34页pdf166篇参考文献

专知会员服务

210+阅读 · 2020年4月13日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知会员服务

145+阅读 · 2019年10月18日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

为新研究准备好一块用武之地：最全任务型对话数据调研

为新研究准备好一块用武之地：最全任务型对话数据调研

PaperWeekly

12+阅读 · 2019年2月11日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

如何实现少样本学习？先让神经网络get√视觉比较能力

如何实现少样本学习？先让神经网络get√视觉比较能力

PaperWeekly

12+阅读 · 2018年5月2日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

样本特性对海洋遥感产品真实性检验的定量化影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Statistical methods for assessing non-replicable, outlying, and influential studies

Arxiv

0+阅读 · 6月15日

Inferring resource selection and utilization distributions from irregular and error-prone animal tracking data

Arxiv

0+阅读 · 6月10日

Large Language Models for Imbalanced Classification: Diversity makes the difference

Arxiv

0+阅读 · 6月8日

LOTTERY: Learning from Reference-Only Samples in Two-Sample Testing under Size Asymmetry

Arxiv

0+阅读 · 6月7日

Excessive use, ill use and misuse of Bibliometrics

Arxiv

0+阅读 · 6月2日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 5月22日

Evaluating the impact of outcome delay on the efficiency of sample size re-estimation

Arxiv

0+阅读 · 5月12日

Uncertainty Quantification for Multi-level Models Using the Survey-Weighted Pseudo-Posterior

Arxiv

0+阅读 · 5月11日

The Polynomial Stein Discrepancy for Assessing Moment Convergence

Arxiv

0+阅读 · 4月30日

An Empirical Comparison of Methods for Quantifying the Similarity of Numeric Datasets

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

小样本研究2022进展到哪了？华东师大最新《少样本学习》全面综述，从近三年200篇文献阐述小样本学习的演变、应用、挑战和机遇

小样本研究2022进展到哪了？华东师大最新《少样本学习》全面综述，从近三年200篇文献阐述小样本学习的演变、应用、挑战和机遇

专知会员服务

128+阅读 · 2022年5月19日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

小样本学习研究综述(中文版), 16页pdf

专知会员服务

204+阅读 · 2020年12月5日

清华大学张长水等最新《少样本学习FSL》2020综述论文，30页pdf414篇参考文献

清华大学张长水等最新《少样本学习FSL》2020综述论文，30页pdf414篇参考文献

专知会员服务

174+阅读 · 2020年9月13日

【香港科技大学】最新《小样本学习(Few-shot learning)》2020综述论文大全，34页pdf166篇参考文献

【香港科技大学】最新《小样本学习(Few-shot learning)》2020综述论文大全，34页pdf166篇参考文献

专知会员服务

210+阅读 · 2020年4月13日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知会员服务

145+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

为新研究准备好一块用武之地：最全任务型对话数据调研

为新研究准备好一块用武之地：最全任务型对话数据调研

PaperWeekly

12+阅读 · 2019年2月11日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

如何实现少样本学习？先让神经网络get√视觉比较能力

如何实现少样本学习？先让神经网络get√视觉比较能力

PaperWeekly

12+阅读 · 2018年5月2日

相关论文

Statistical methods for assessing non-replicable, outlying, and influential studies

Arxiv

0+阅读 · 6月15日

Inferring resource selection and utilization distributions from irregular and error-prone animal tracking data

Arxiv

0+阅读 · 6月10日

Large Language Models for Imbalanced Classification: Diversity makes the difference

Arxiv

0+阅读 · 6月8日

LOTTERY: Learning from Reference-Only Samples in Two-Sample Testing under Size Asymmetry

Arxiv

0+阅读 · 6月7日

Excessive use, ill use and misuse of Bibliometrics

Arxiv

0+阅读 · 6月2日

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Arxiv

0+阅读 · 5月22日

Evaluating the impact of outcome delay on the efficiency of sample size re-estimation

Arxiv

0+阅读 · 5月12日

Uncertainty Quantification for Multi-level Models Using the Survey-Weighted Pseudo-Posterior

Arxiv

0+阅读 · 5月11日

The Polynomial Stein Discrepancy for Assessing Moment Convergence

Arxiv

0+阅读 · 4月30日

An Empirical Comparison of Methods for Quantifying the Similarity of Numeric Datasets

Arxiv

0+阅读 · 4月14日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

样本特性对海洋遥感产品真实性检验的定量化影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员