We study nonparametric change-point detection for high-dimensional data in regimes where inference must be performed from small batches of observations. Our primary focus is the high-dimensional, low sample size (HDLSS) regime, where the sequence length is fixed while the ambient dimension diverges. We propose a dimension-averaged angular kernel scan framework for detecting marginal distributional shifts. The statistic aggregates bounded one-dimensional angular discrepancies across coordinates, yielding a fully nonparametric, hyperparameter-free, and moment-agnostic estimator that remains well-defined without specifying, estimating, or assuming finite marginal moments; for example, under heavy-tailed or contaminated distributions. For the offline single-change problem, we derive an exact population mean factorization into a universal deterministic shape function and a scalar signal factor, and characterize the exact null covariance structure up to a scalar variance factor, both valid for any fixed sample size and dimension. We also establish an HDLSS multivariate central limit theorem under cross-coordinate strong mixing which leads to a variance-calibrated asymptotically distribution-free test, asymptotic type-I error control, and lower bounds on power and localization accuracy. We further extend the offline procedure to a fixed-window sequential monitoring procedure for high-dimensional streaming data, and obtain ARL calibration and worst-case Pollak EDD bounds. Simulation studies demonstrate that the proposed method can accurately detect and localize changes in many challenging HDLSS and streaming high-dimensional settings where moment-based or hyperparameter-sensitive procedures may be extremely unstable or inaccurate.


翻译:我们研究在高维数据中基于小批量观测进行推断时非参数变点检测问题。主要关注高维低样本量(HDLSS)场景,其中序列长度固定而环境维度发散。我们提出一种维度平均角核扫描框架,用于检测边际分布偏移。该统计量通过聚合各坐标上的有界一维角差异,得到完全非参数、无超参数且不依赖矩的估计量——该估计量无需指定、估计或假设有限边际矩即可良好定义,例如适用于重尾分布或污染分布。针对离线单变点问题,我们推导出精准总体均值分解为通用确定性形状函数与标量信号因子,并刻画精确零协方差结构(仅含标量方差因子),二者对任意固定样本量和维度均成立。我们还建立跨坐标强混合条件下的HDLSS多元中心极限定理,由此得到方差校准的渐近分布无关检验、渐近第一类错误控制,以及检验功效与定位精度的下界。进一步将离线流程扩展为面向高维流式数据的固定窗口序贯监测流程,并获得ARL校准与最坏情况Pollak EDD界。模拟研究表明,在矩估计或超参数敏感方法可能极不稳定或不准确且具有挑战性的HDLSS与高维流式场景中,所提方法能精确检测并定位变化。

0
下载
关闭预览

相关内容

【AAAI2022】基于图神经网络的统一离群点异常检测方法
专知会员服务
28+阅读 · 2022年2月12日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【AAAI2022】基于图神经网络的统一离群点异常检测方法
专知会员服务
28+阅读 · 2022年2月12日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员