On the statistical analysis of grouped data: when Pearson $χ^2$ and other divisible statistics are not goodness-of-fit tests - 专知论文

会员服务 ·

0

分析 · 统计量 · 分解 · 拟合 · 饱和 ·

On the statistical analysis of grouped data: when Pearson $χ^2$ and other divisible statistics are not goodness-of-fit tests

翻译：关于分组数据的统计分析：当皮尔逊$χ^2$及其他可分解统计量不再是拟合优度检验时

Sara Algeri,Estate V. Khmaladze

Thousands of experiments are analyzed, and papers are published each year involving the statistical analysis of grouped data. While this area of statistics is often perceived -- somewhat naively -- as saturated, several misconceptions still affect everyday practice, and new frontiers have so far remained unexplored. Researchers must be aware of the limitations affecting their analyses and what new possibilities are at their hands. The article introduces a unifying approach to the analysis of divisible statistics -- that includes Pearson's $χ^2$, the likelihood ratio, and spectral statistics, as special cases -- when a statistician deals with a large number of bins/groups, thus leading to a large number of small or moderate frequencies. Performance of the tests is analyzed against the class of contiguous (local) alternatives. Perhaps the most surprising result here is that, in this `sparse' regime, most of the tests proposed in the literature can be modified to produce more powerful tests, and no single test based on a divisible statistic leads to a goodness-of-fit test. Distribution-free goodness-of-fit tests are also constructed.

翻译：每年有数以千计的实验被分析，并有大量论文发表，涉及分组数据的统计分析。尽管这一统计领域常被——略显天真地——视为已饱和，但若干误解仍影响着日常实践，而新的前沿至今未得到探索。研究人员必须意识到其分析中存在的局限性，以及他们手中可用的新可能性。本文引入了一种统一的分析方法，用于处理可分解统计量——包括皮尔逊$χ^2$、似然比和谱统计量作为特例——当统计学家面对大量区间/组别时，这导致大量小或中等频率的出现。检验性能针对相邻（局部）备择假设类别进行了分析。这里最令人惊讶的结果或许是，在这种“稀疏”情形下，文献中提出的大多数检验可以被修改以产生更有力的检验，而没有任何基于可分解统计量的单一检验能构成拟合优度检验。本文还构建了无分布拟合优度检验。

0

相关内容

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

专知会员服务

26+阅读 · 2023年2月7日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

【斯坦福大学博士论文】复杂统计模型中的因果和选择性推理，274页pdf

【斯坦福大学博士论文】复杂统计模型中的因果和选择性推理，274页pdf

专知会员服务

86+阅读 · 2022年9月15日

【实用书】统计显著性测试以及在自然语言中的应用，118页pdf

【实用书】统计显著性测试以及在自然语言中的应用，118页pdf

专知会员服务

47+阅读 · 2022年6月4日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

统计太抽象？这本《统计分析基础》新书图文式为你讲解，91页pdf

统计太抽象？这本《统计分析基础》新书图文式为你讲解，91页pdf

专知会员服务

65+阅读 · 2022年1月14日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

105+阅读 · 2020年6月13日

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

专知会员服务

93+阅读 · 2020年6月1日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

113+阅读 · 2020年2月28日

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

专知会员服务

137+阅读 · 2019年10月30日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

Galaxy Zoo：利用众包和主动学习对星系进行分类

Galaxy Zoo：利用众包和主动学习对星系进行分类

TensorFlow

16+阅读 · 2020年6月22日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

如何实现少样本学习？先让神经网络get√视觉比较能力

如何实现少样本学习？先让神经网络get√视觉比较能力

PaperWeekly

12+阅读 · 2018年5月2日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Statistical methods for assessing non-replicable, outlying, and influential studies

Arxiv

0+阅读 · 6月15日

A Bayesian hierarchical model for meta-analysis

Arxiv

0+阅读 · 6月15日

Separate versus pooled winsorization for group mean contrasts: a finite-sample theory

Arxiv

0+阅读 · 6月13日

Pandas for Reproducible Data Analysis: From Spreadsheets to Research-Grade Python Workflows

Arxiv

0+阅读 · 6月12日

Bayesian genome-wide clustering and variable selection of transcriptomic data via rank-based mixtures

Arxiv

0+阅读 · 6月4日

Cluster Analysis with Resampling for Validation and Exploration (CARVE)

Arxiv

0+阅读 · 5月29日

Causally-interpretable meta-analysis using aggregate data

Arxiv

0+阅读 · 5月26日

Evaluation of the number of clusters in a data set using $p$-values from Multiple Tests of Hypotheses

Arxiv

0+阅读 · 5月20日

Persistent Amortised Analysis, Operationally

Arxiv

0+阅读 · 5月10日

High-Dimensional Statistics: Reflections on Progress and Open Problems

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

11+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

7+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

专知会员服务

26+阅读 · 2023年2月7日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

【斯坦福大学博士论文】复杂统计模型中的因果和选择性推理，274页pdf

【斯坦福大学博士论文】复杂统计模型中的因果和选择性推理，274页pdf

专知会员服务

86+阅读 · 2022年9月15日

【实用书】统计显著性测试以及在自然语言中的应用，118页pdf

【实用书】统计显著性测试以及在自然语言中的应用，118页pdf

专知会员服务

47+阅读 · 2022年6月4日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

统计太抽象？这本《统计分析基础》新书图文式为你讲解，91页pdf

统计太抽象？这本《统计分析基础》新书图文式为你讲解，91页pdf

专知会员服务

65+阅读 · 2022年1月14日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

105+阅读 · 2020年6月13日

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

【斯坦福经典书】计算机时代的统计推断: 算法、证据和数据科学，493页pdf

专知会员服务

93+阅读 · 2020年6月1日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知会员服务

113+阅读 · 2020年2月28日

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

【电子书】统计学习的要素第二版（The Elements of Statistical Learning）764页PDF免费下载

专知会员服务

137+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

Galaxy Zoo：利用众包和主动学习对星系进行分类

Galaxy Zoo：利用众包和主动学习对星系进行分类

TensorFlow

16+阅读 · 2020年6月22日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

如何实现少样本学习？先让神经网络get√视觉比较能力

如何实现少样本学习？先让神经网络get√视觉比较能力

PaperWeekly

12+阅读 · 2018年5月2日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

相关论文

Statistical methods for assessing non-replicable, outlying, and influential studies

Arxiv

0+阅读 · 6月15日

A Bayesian hierarchical model for meta-analysis

Arxiv

0+阅读 · 6月15日

Separate versus pooled winsorization for group mean contrasts: a finite-sample theory

Arxiv

0+阅读 · 6月13日

Pandas for Reproducible Data Analysis: From Spreadsheets to Research-Grade Python Workflows

Arxiv

0+阅读 · 6月12日

Bayesian genome-wide clustering and variable selection of transcriptomic data via rank-based mixtures

Arxiv

0+阅读 · 6月4日

Cluster Analysis with Resampling for Validation and Exploration (CARVE)

Arxiv

0+阅读 · 5月29日

Causally-interpretable meta-analysis using aggregate data

Arxiv

0+阅读 · 5月26日

Evaluation of the number of clusters in a data set using $p$-values from Multiple Tests of Hypotheses

Arxiv

0+阅读 · 5月20日

Persistent Amortised Analysis, Operationally

Arxiv

0+阅读 · 5月10日

High-Dimensional Statistics: Reflections on Progress and Open Problems

Arxiv

0+阅读 · 5月6日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员